数据集概述
该数据集包含东京都立大学在线学习系统的FAQ数据及其分类,用于训练专用聊天机器人。数据基于2015年4月至2018年7月师生使用系统时的真实问答记录,提供日语原版及英文翻译版数据,支持学术研究。
文件详解
该数据集包含两类文件,具体说明如下:
- FAQ数据文件(CSV格式):
- Answer2Category.csv:答案分类对应关系
- Answer2Tag.csv:答案标题对应关系
- Answers.csv:答案ID及日语文本
- Categories.csv:答案分类名称
- Questions.csv:问题文本及对应答案ID
- Answers_english.csv:答案ID及英文翻译文本
- Categories_english.csv:答案分类名称及英文翻译
- Questions_english.csv:问题文本及对应答案ID(英文翻译)
- Answer2Tag_english.csv:答案标题对应关系(英文翻译)
- 统计分析文件(TSV格式):
- 包含inter_class.tsv、inner_tag.tsv等文件,记录数据集质量评估结果,采用Calinski-Harabaz方法、互信息、Jaccard指数、TF-IDF+KL散度、TF-IDF+JS散度等指标,分析问题-答案、答案-分类的聚类质量
- 其他文件:
- README.html:数据集说明文档
数据来源
东京都立大学
适用场景
- 教育技术研究:训练和评估在线学习系统的智能问答聊天机器人
- 自然语言处理:用于日语FAQ分类、问答匹配等任务的模型训练
- 教育数据分析:分析在线学习系统用户的常见问题及需求
- 文献计量研究:复现相关论文中的聊天机器人准确率实验
- 跨语言NLP:探索日语-英语FAQ数据的翻译与应用价值