数据集

Jigsaw毒性评论标注数据集-评论毒性评估与分析

Jigsaw毒性评论标注数据集-评论毒性评估与分析数据来源：互联网公开数据标签：毒性评论,自然语言处理,文本分类,情感分析,仇恨言论,冒犯性语言,标注数据,社交媒体,机器学习数据概述：本数据集包含了对评论文本进行毒性评估的标注数据，旨在用于训练和评估毒性评论检测模型。数据集由两部分组成：第一部分为评论文本的分类结果，将评论分为中立、冒犯性或仇恨言论三类；第二部分为标注者之间对分类结果的共识程度，提供了标注者之间意见一致性的概率信息。

数据来源包括：原始数据集由dataista0（Julián Peller）提供，标注共识数据来源于Davidson, Thomas 等人在论文《Automated Hate Speech Detection and the Problem of Offensive Language》中发布的数据。

数据用途概述：该数据集可用于训练和评估各种自然语言处理模型，特别是用于检测和识别社交媒体等平台上的毒性评论。研究人员可以利用该数据进行文本分类、情感分析、仇恨言论检测等研究，从而开发更有效的工具来识别和过滤有害内容。同时，该数据集也适用于研究标注者之间意见一致性对模型性能的影响，以及探索如何提高模型对不同类型毒性言论的识别能力。此外，该数据也可用于教育目的，帮助学生理解文本分类、情感分析等概念，以及分析社交媒体上的语言暴力现象。

数据与资源

Jigsaw毒性评论标注数据集-评论毒性评估与分析.zipZIP
59.07 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	59.07 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。