数据集

东京都立大学在线学习系统日语FAQ数据集

数据集概述

该数据集包含东京都立大学在线学习系统的FAQ数据及其分类，用于训练专用聊天机器人。数据基于2015年4月至2018年7月师生使用系统时的真实问答记录，提供日语原版及英文翻译版数据，支持学术研究。

文件详解

该数据集包含两类文件，具体说明如下： - FAQ数据文件（CSV格式）： - Answer2Category.csv：答案分类对应关系 - Answer2Tag.csv：答案标题对应关系 - Answers.csv：答案ID及日语文本 - Categories.csv：答案分类名称 - Questions.csv：问题文本及对应答案ID - Answers_english.csv：答案ID及英文翻译文本 - Categories_english.csv：答案分类名称及英文翻译 - Questions_english.csv：问题文本及对应答案ID（英文翻译） - Answer2Tag_english.csv：答案标题对应关系（英文翻译） - 统计分析文件（TSV格式）： - 包含inter_class.tsv、inner_tag.tsv等文件，记录数据集质量评估结果，采用Calinski-Harabaz方法、互信息、Jaccard指数、TF-IDF+KL散度、TF-IDF+JS散度等指标，分析问题-答案、答案-分类的聚类质量 - 其他文件： - README.html：数据集说明文档

数据来源

东京都立大学

适用场景

教育技术研究：训练和评估在线学习系统的智能问答聊天机器人
自然语言处理：用于日语FAQ分类、问答匹配等任务的模型训练
教育数据分析：分析在线学习系统用户的常见问题及需求
文献计量研究：复现相关论文中的聊天机器人准确率实验
跨语言NLP：探索日语-英语FAQ数据的翻译与应用价值

数据与资源

2783642.zipZIP
1.44 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	1.44 MiB
最后更新	2025年12月13日
创建于	2025年12月13日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。