历史问答生成数据集

数据集概述

本数据集基于多视角对话历史生成问答对,核心内容是从Ubuntu对话语料库中提取多轮对话,通过对话ID合并为上下文后生成问题与答案,并标注答案在上下文中的起止位置,支持问答模型训练与评估。

文件详解

该数据集包含4个数据文件,具体说明如下: - 训练集文件: - train_data.csv: CSV格式文件,包含7323条上下文和29150对问答数据,字段包括dialogueID(对话ID)、Context(上下文文本)、QuestionID(问题ID)、Question(问题)、Answer(答案)、Answer Start(答案起始位置)、Answer End(答案结束位置)。 - train_data_json_file.json: JSON格式文件,内容与train_data.csv一致,结构为JSON格式。 - 测试集文件: - test_data.csv: CSV格式文件,包含2041条上下文和7288对问答数据,字段与训练集CSV文件相同。 - test_data_json_file.json: JSON格式文件,内容与test_data.csv一致,结构为JSON格式。

数据来源

The Ubuntu Dialog Corpus

适用场景

  • 问答系统研究: 用于训练和评估基于对话历史的自动问答模型。
  • 自然语言处理任务: 支持对话理解、上下文建模等NLP任务的模型开发。
  • 对话系统优化: 为多轮对话系统提供问答数据支撑,提升系统交互能力。
  • 教育领域应用: 可用于构建交互式学习系统,生成个性化问答练习内容。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 20.72 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。