数据集

土耳其语Twitter平台社交媒体攻击性语言检测数据集-eymaahner

数据来源：互联网公开数据

标签：土耳其语, Twitter, 社交媒体, 攻击性语言, 情感分析, 自然语言处理, 文本分类, 机器学习

数据概述：本数据集是从Twitter平台上收集的土耳其语文本数据，用于社交媒体中的攻击性语言检测。数据集中包含了用户发布的推文，并进行了多类别标签标注，以支持不同粒度的攻击性语言分析。数据集提供了两种类型的标注方式：二元分类和多类别分类。二元分类（saldırgan_saldırgandeğil.csv）将推文分为“攻击性（1）”和“非攻击性（0）”两类。多类别分类提供了更细致的划分，包括：hedefli_hedefsiz.csv（0:非目标/not-targeted, 1:目标/targeted, 2:非攻击性/non offensive）和grp_birey_diger.csv（1:个人/individual, 2:群体/group, 3:其他/other, 0:非目标/not targeted, 4:非攻击性/non offensive）。

数据用途概述：该数据集主要用于训练和评估土耳其语攻击性语言检测模型。研究人员可以使用该数据集进行文本分类、情感分析、自然语言处理等相关研究。具体应用场景包括：社交媒体内容审核、舆情监测、仇恨言论检测、以及构建更安全的在线社区。此外，该数据集也适用于机器学习算法的训练和测试，以及用于开发和改进土耳其语文本分析工具。

引用说明：若在学术论文中使用该数据集，请引用以下文章： Şahiner Yılmaz, Ş. , Özer, İ. & Gökçen, H. (2022). Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi . Mühendislik Bilimleri ve Araştırmaları Dergisi , 4 (2) , 304-316 . DOI: 10.46387/bjesr.1173434 (https://dergipark.org.tr/tr/pub/bjesr/issue/73170/1173434article_cite)

致谢：感谢Gökhan YILMAZ 在本研究中提供的帮助，特别是在标签标注过程中遇到的困难。

数据与资源

versions_20250408073657.zipZIP
2.06 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	2.06 MiB
最后更新	2025年4月24日
创建于	2025年4月24日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。