社交对话中问题性内容处理对话数据集-thedevastator
数据来源:互联网公开数据
标签:对话处理,社交规范,对话代理,伦理问题,偏见,毒性语言,教育,研究
数据概述:
本数据集是首个大规模多轮英文对话数据集,旨在教会对话代理如何遵循社会规范回应问题性内容。数据集涵盖了多样化的不道德、有问题的、有偏见的和有毒的情况,包含鼓励亲社会行为的回应,这些回应基于常识性社会规则(即直觉规则,RoTs)。通过人类和AI协作框架创建,ProsocialDialog 数据集包含58,000个对话,331,000个对话回合,160,000个独特的RoTs,以及497,000个对话安全标签,附带自由形式的解释理由。
数据用途概述:
该数据集适用于对话代理的设计、对话系统的基准评估、自动化审查等多种场景。研究人员可以利用此数据集训练NLP模型,使其能够识别和分类问题性内容,并根据安全标签和RoTs生成社会可接受的回应。此外,该数据集还可以用于评估现有对话系统在识别、回应和预防问题性内容互动方面的表现,以及技术平台进行自动化审查任务,如标记或禁止不当消息或用户。
数据集包括多个文件(validation.csv, train.csv, test.csv),每个文件包含以下字段:
- context:对话背景信息(字符串)
- response:对话回应(字符串)
- rots:与对话相关的直觉规则(字符串)
- safety_label:对话的安全标签(字符串)
- safety_annotations:对话的安全注释(字符串)
- safety_annotation_reasons:安全注释的理由(字符串)
- source:对话的数据来源(字符串)
- etc:对话的其他相关信息(字符串)
- episode_done:对话是否完成(布尔值)
数据集可从Huggingface Hub获取,遵循CC0 1.0 Universal (CC0 1.0) - 公共领域奉献许可协议,允许自由复制、修改、分发和表演,甚至用于商业目的,无需请求许可。
数据集中的不同字段提供了丰富的信息,帮助研究者理解对话背景、回应内容、适用的直觉规则,以及对话的安全性评估和理由。通过分析这些信息,研究者可以更好地设计对话代理,评估现有系统,以及实施自动化审查。