不健康评论识别数据集1963-2021
数据来源:互联网公开数据
标签:不健康评论,在线交流,情感分析,机器学习,数据标注,语义识别
数据概述:
本数据集包含了44355条评论,旨在帮助研究在线不健康对话中细微属性的识别。每条评论都被标记为“健康”或“不健康”,并附加了六种潜在“不健康”子属性的二元标签:(1) 敌意;(2) 对立、侮辱、挑衅或 trolling;(3) 否定;(4) 嘲讽或居高临下;(5) 讽刺;及/或 (6) 不公平概括。每个标签还附有一个置信度分数。
数据用途概述:
该数据集适用于在线对话分析、情感分析、机器学习模型训练等多个场景。研究人员可以利用此数据进行不健康评论的识别研究;在线平台可以使用该数据优化评论过滤系统;教育机构可以将其用于自然语言处理课程的教学。此外,数据集也适合用于学术研究,帮助学者们深入理解在线交流中的细微情感变化。
举例:
数据集包括三个CSV文件:train.csv、test.csv 和 val.csv。每个文件记录了每条评论的标签、置信度分数及生成结果标签和置信度分数所依据的可信判断数量(参见论文详情)。此外,我们还提供了unhealthy_full.csv,其中包含所有单个评论的注释,这些注释是生成最终数据集的基础。每个注释包含注释者的可信度分数,允许用户根据需要设置更高的可信度门槛或应用不同的聚合方法。
原始评论来自SFU意见和评论语料库中的评论部分。
基线分类:
为了提供模型性能的参考,我们将模型性能与人工标注者进行了比较。对于每条评论,我们随机选择一个标注者作为“人类模型”,并使用其他标注者的聚合分数作为真实值来计算ROC AUC(重复5次并取平均值)。我们使用相同的测试集来计算训练BERT模型的ROC AUC,并取平均值。结果显示,对于除“讽刺”之外的所有属性,BERT模型的性能优于随机选择的人类标注者,表明模型已充分捕捉了这些属性的语义和语法结构。对于“讽刺”,BERT模型和人类标注者之间的差距表明了该领域仍存在提升模型性能的空间。
属性 人类AUC BERT AUC
对立 0.71 0.82
嘲讽 0.72 0.78
否定 0.68 0.82
概括 0.73 0.74
敌意 0.76 0.84
讽刺 0.72 0.64
不健康 0.62 0.69
灵感来源:
研究论文链接: https://arxiv.org/pdf/2010.07410.pdf
您可以在研究论文中阅读更多关于此数据集的信息。