多视角角色对话HQA 数据集

这是一个基于用户聊天记录的问答数据集。我们找到了一个包含两人或多人对话的文本格式的数据集;数据集名称为“Ubuntu 对话语料库”。从该数据集中,我们根据 dialogID(代表一个唯一的聊天室)分析用户的聊天。根据 dialogID,我们合并了这些聊天并将其转换为上下文。我们从上下文中得出问题和答案。然后,根据该上下文,我们确定答案的起始和结束位置。我们的数据集有两种不同的格式:1. 逗号分隔值 (CSV),2. JSON 格式的数据。每种格式在训练文件中都包含 7323 个上下文和 29150 个 QA 对。测试文件中有 2041 个上下文和 7288 个 QA 对。总的来说,我们的数据集中有 9364 个上下文和 36438 个 QA 。

packageimg

数据与资源

附加信息

字段
数据集大小 13.6 MiB
最后更新 2025年2月8日
创建于 2024年11月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。