东京都立大学在线学习系统日语FAQ数据集

数据集概述

该数据集包含东京都立大学在线学习系统的FAQ数据及其分类,用于训练专用聊天机器人。数据基于2015年4月至2018年7月师生使用系统时的真实问答记录,提供日语原版及英文翻译版数据,支持学术研究。

文件详解

该数据集包含两类文件,具体说明如下: - FAQ数据文件(CSV格式): - Answer2Category.csv:答案分类对应关系 - Answer2Tag.csv:答案标题对应关系 - Answers.csv:答案ID及日语文本 - Categories.csv:答案分类名称 - Questions.csv:问题文本及对应答案ID - Answers_english.csv:答案ID及英文翻译文本 - Categories_english.csv:答案分类名称及英文翻译 - Questions_english.csv:问题文本及对应答案ID(英文翻译) - Answer2Tag_english.csv:答案标题对应关系(英文翻译) - 统计分析文件(TSV格式): - 包含inter_class.tsv、inner_tag.tsv等文件,记录数据集质量评估结果,采用Calinski-Harabaz方法、互信息、Jaccard指数、TF-IDF+KL散度、TF-IDF+JS散度等指标,分析问题-答案、答案-分类的聚类质量 - 其他文件: - README.html:数据集说明文档

数据来源

东京都立大学

适用场景

  • 教育技术研究:训练和评估在线学习系统的智能问答聊天机器人
  • 自然语言处理:用于日语FAQ分类、问答匹配等任务的模型训练
  • 教育数据分析:分析在线学习系统用户的常见问题及需求
  • 文献计量研究:复现相关论文中的聊天机器人准确率实验
  • 跨语言NLP:探索日语-英语FAQ数据的翻译与应用价值
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.44 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。