Jigsaw毒性评论标注数据集-评论毒性评估与分析
数据来源:互联网公开数据
标签:毒性评论,自然语言处理,文本分类,情感分析,仇恨言论,冒犯性语言,标注数据,社交媒体,机器学习
数据概述:
本数据集包含了对评论文本进行毒性评估的标注数据,旨在用于训练和评估毒性评论检测模型。数据集由两部分组成:第一部分为评论文本的分类结果,将评论分为中立、冒犯性或仇恨言论三类;第二部分为标注者之间对分类结果的共识程度,提供了标注者之间意见一致性的概率信息。
数据来源包括:原始数据集由dataista0(Julián Peller)提供,标注共识数据来源于Davidson, Thomas 等人在论文《Automated Hate Speech Detection and the Problem of Offensive Language》中发布的数据。
数据用途概述:
该数据集可用于训练和评估各种自然语言处理模型,特别是用于检测和识别社交媒体等平台上的毒性评论。研究人员可以利用该数据进行文本分类、情感分析、仇恨言论检测等研究,从而开发更有效的工具来识别和过滤有害内容。同时,该数据集也适用于研究标注者之间意见一致性对模型性能的影响,以及探索如何提高模型对不同类型毒性言论的识别能力。此外,该数据也可用于教育目的,帮助学生理解文本分类、情感分析等概念,以及分析社交媒体上的语言暴力现象。