数据集

社交对话中问题性内容处理对话数据集-thedevastator

社交对话中问题性内容处理对话数据集-thedevastator 数据来源：互联网公开数据标签：对话处理,社交规范,对话代理,伦理问题,偏见,毒性语言,教育,研究

数据概述：本数据集是首个大规模多轮英文对话数据集，旨在教会对话代理如何遵循社会规范回应问题性内容。数据集涵盖了多样化的不道德、有问题的、有偏见的和有毒的情况，包含鼓励亲社会行为的回应，这些回应基于常识性社会规则（即直觉规则，RoTs）。通过人类和AI协作框架创建，ProsocialDialog 数据集包含58,000个对话，331,000个对话回合，160,000个独特的RoTs，以及497,000个对话安全标签，附带自由形式的解释理由。

数据用途概述：该数据集适用于对话代理的设计、对话系统的基准评估、自动化审查等多种场景。研究人员可以利用此数据集训练NLP模型，使其能够识别和分类问题性内容，并根据安全标签和RoTs生成社会可接受的回应。此外，该数据集还可以用于评估现有对话系统在识别、回应和预防问题性内容互动方面的表现，以及技术平台进行自动化审查任务，如标记或禁止不当消息或用户。

数据集包括多个文件（validation.csv, train.csv, test.csv），每个文件包含以下字段： - context：对话背景信息（字符串） - response：对话回应（字符串） - rots：与对话相关的直觉规则（字符串） - safety_label：对话的安全标签（字符串） - safety_annotations：对话的安全注释（字符串） - safety_annotation_reasons：安全注释的理由（字符串） - source：对话的数据来源（字符串） - etc：对话的其他相关信息（字符串） - episode_done：对话是否完成（布尔值）

数据集可从Huggingface Hub获取，遵循CC0 1.0 Universal (CC0 1.0) - 公共领域奉献许可协议，允许自由复制、修改、分发和表演，甚至用于商业目的，无需请求许可。

数据集中的不同字段提供了丰富的信息，帮助研究者理解对话背景、回应内容、适用的直觉规则，以及对话的安全性评估和理由。通过分析这些信息，研究者可以更好地设计对话代理，评估现有系统，以及实施自动化审查。

数据与资源

versions_20250409043741.zipZIP
23.70 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	23.7 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

社交对话中问题性内容处理对话数据集-thedevastator

数据与资源

附加信息

注册成功！