德国仇恨言论语料库

德国仇恨言论语料库 数据来源:互联网公开数据 标签:仇恨言论,德语,社交网络,文本标注,自然语言处理,内容识别,社会媒体分析 数据概述: 本数据集包含从不同来源(如Facebook评论、推特等)收集的若干德语文本实例,并经过人工重新标注为仇恨言论(hs)、攻击性/问题性语言(p)或非仇恨言论(n)。所有文件均为制表符分隔的CSV文件。语料库目前正在构建中,可能会有所变化。 数据用途概述: 该数据集适用于仇恨言论和攻击性内容识别研究、自然语言处理任务、社交网络分析等多种场景。研究人员可以利用此数据集来训练和评估仇恨言论检测模型;政策制定者可以基于数据了解和应对网络中的仇恨言论现象;教育机构可使用数据集进行相关课程的教学和研究。 参考文献: [1] Mandl, Thomas, Sandip Modha, Prasenjit Majumder, Daksh Patel, Mohana Dave, Chintak Mandlia, and Aditya Patel. "Overview of the HASOC track at FIRE 2019: Hate Speech and Offensive Content Identification in Indo-European Languages." FIRE '19: Proceedings of the 11th Forum for Information Retrieval Evaluation, 2019. 14–17. [2] Ross, Björn, Michael Rist, Guillermo Carbonell, Benjamin Cabrera, Nils Kurowsky, and Michael Wojatzki. "Measuring the Reliability of Hate Speech Annotations: The Case of the European Refugee Crisis." Proceedings of NLP4CMC III: 3rd Workshop on Natural Language Processing for Computer-Mediated Communication, 2016. 6-9. [3] Wiegand, Michael, Melanie Siegel, and Josef Ruppenhofer. "Overview of the GermEval 2018 Shared Task on the Identification of Offensive Language." Proceedings of GermEval 2018, 14th Conference on Natural Language Processing (KONVENS 2018), 2018. 1-10. [4] De Smedt, Tom, and Sylvia Jaki. "The Polly corpus: Online political debate in Germany." Proceedings of the 6th Conference on Computer-Mediated Communication (CMC) and Social Media Corpora (CMC-corpora 2018), 2018. [5] Bretschneider, Uwe and Ralf Peters. "Detecting Offensive Statements towards Foreigners in Social Media." Proceedings of the 50th Hawaii International Conference on System Sciences, 2017.

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.88 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。