数据集

历史问答生成数据集

数据集概述

本数据集基于多视角对话历史生成问答对，核心内容是从Ubuntu对话语料库中提取多轮对话，通过对话ID合并为上下文后生成问题与答案，并标注答案在上下文中的起止位置，支持问答模型训练与评估。

文件详解

该数据集包含4个数据文件，具体说明如下： - 训练集文件: - train_data.csv: CSV格式文件，包含7323条上下文和29150对问答数据，字段包括dialogueID（对话ID）、Context（上下文文本）、QuestionID（问题ID）、Question（问题）、Answer（答案）、Answer Start（答案起始位置）、Answer End（答案结束位置）。 - train_data_json_file.json: JSON格式文件，内容与train_data.csv一致，结构为JSON格式。 - 测试集文件: - test_data.csv: CSV格式文件，包含2041条上下文和7288对问答数据，字段与训练集CSV文件相同。 - test_data_json_file.json: JSON格式文件，内容与test_data.csv一致，结构为JSON格式。

数据来源

The Ubuntu Dialog Corpus

适用场景

问答系统研究: 用于训练和评估基于对话历史的自动问答模型。
自然语言处理任务: 支持对话理解、上下文建模等NLP任务的模型开发。
对话系统优化: 为多轮对话系统提供问答数据支撑，提升系统交互能力。
教育领域应用: 可用于构建交互式学习系统，生成个性化问答练习内容。

数据与资源

p85z3v45xk-1.zipZIP
20.72 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	20.72 MiB
最后更新	2025年11月28日
创建于	2025年11月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。