俄罗斯敏感话题不适当言论数据集

俄罗斯敏感话题不适当言论数据集 数据来源:互联网公开数据 标签:敏感话题,不适当言论,网络言论,俄罗斯,自然语言处理,文本分析,社会学研究

数据概述: 本数据集专注于收集和分析涉及敏感话题的不适当言论,这些言论可能引起读者的不适或损害发言者的声誉。不适当性概念接近于毒性,但明确的毒性和明显的 obscenity(秽语)已被有意排除在外。数据集旨在区分在已知敏感话题下的适当和不适当言论。数据的主要来源包括2ch.hk、Pikabu.ru 和 otveti.mail.ru。

数据用途概述: 该数据集适用于自然语言处理研究、文本分析、社会学研究等多种场景。研究人员可以利用此数据集开发和改进算法,以识别和过滤不适当言论;社交媒体平台可以利用数据集提高内容审核的准确性;教育机构可以借助数据集进行相关话题的教学和讨论。

举例: 数据集中包含的样本包括一些涉及种族、性别、宗教等敏感话题的言论,其中一些言论被认为是不适当的,因为它们可能包含歧视、侮辱或潜在的威胁。例如,“这种人根本不配在这个国家待”这样的言论会被标记为不适当。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 7.18 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。