土耳其语Twitter平台社交媒体攻击性语言检测数据集-eymaahner
数据来源:互联网公开数据
标签:土耳其语, Twitter, 社交媒体, 攻击性语言, 情感分析, 自然语言处理, 文本分类, 机器学习
数据概述:
本数据集是从Twitter平台上收集的土耳其语文本数据,用于社交媒体中的攻击性语言检测。数据集中包含了用户发布的推文,并进行了多类别标签标注,以支持不同粒度的攻击性语言分析。数据集提供了两种类型的标注方式:二元分类和多类别分类。二元分类(saldırgan_saldırgandeğil.csv)将推文分为“攻击性(1)”和“非攻击性(0)”两类。多类别分类提供了更细致的划分,包括:hedefli_hedefsiz.csv(0:非目标/not-targeted, 1:目标/targeted, 2:非攻击性/non offensive)和grp_birey_diger.csv(1:个人/individual, 2:群体/group, 3:其他/other, 0:非目标/not targeted, 4:非攻击性/non offensive)。
数据用途概述:
该数据集主要用于训练和评估土耳其语攻击性语言检测模型。研究人员可以使用该数据集进行文本分类、情感分析、自然语言处理等相关研究。具体应用场景包括:社交媒体内容审核、舆情监测、仇恨言论检测、以及构建更安全的在线社区。此外,该数据集也适用于机器学习算法的训练和测试,以及用于开发和改进土耳其语文本分析工具。
引用说明:
若在学术论文中使用该数据集,请引用以下文章:
Şahiner Yılmaz, Ş. , Özer, İ. & Gökçen, H. (2022). Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi . Mühendislik Bilimleri ve Araştırmaları Dergisi , 4 (2) , 304-316 . DOI: 10.46387/bjesr.1173434
(https://dergipark.org.tr/tr/pub/bjesr/issue/73170/1173434article_cite)
致谢:
感谢Gökhan YILMAZ 在本研究中提供的帮助,特别是在标签标注过程中遇到的困难。