印地语混合语YouTube评论仇恨言论NLP使用数据集
数据来源:互联网公开数据
数据集说明:
本数据集旨在支持对社交媒体中针对宗教的仇恨言论进行自动识别与分析,特别聚焦于 Hindi-English code-mixed(印地语-英语混合)语言 的 YouTube 评论内容。这类语言结构在印度等多语言国家的社交媒体中极为常见,然而目前在自然语言处理(NLP)研究中仍属低资源语言场景,面临标注数据缺乏、语言混杂等挑战。
THAR 数据集为此类研究提供了高质量的注释数据,有助于推动低资源语言在仇恨言论检测、情感分析、多语言建模等任务中的发展。
字段定义(常见结构,具体以数据文件为准):
comment_id:评论的唯一标识符
text:原始评论内容(以印地语-英语混合语言书写)
label:标注结果,表示该评论是否包含针对宗教的仇恨言论(如 Hate, Non-Hate, 或多分类标签)
target_religion(如适用):评论中针对的宗教群体(如 Hindu, Muslim, Christian 等)
数据特征:
类型:结构化文本分类数据,含原文与标注标签
语言特征:印地语和英语混合体,具有代码混合和口语化特征
注释质量高,适用于深度学习训练任务
包含仇恨言论的真实社交媒体环境评论,来源于 YouTube 平台
数据来源与引用:
Sharma, D., Singh, A., & Singh, V. K. (2024). THAR - Targeted Hate Speech Against Religion: A high-quality Hindi-English code-mixed Dataset with the Application of Deep Learning Models for Automatic Detection. ACM TALLIP.
DOI 链接
时间范围: 不详,基于近期抓取的社交平台评论内容(2023–2024)
数据格式: CSV 或 JSON,结构清晰,便于加载进 Pandas、Sklearn、PyTorch、TensorFlow 等工具
更新频率: 静态数据集(用于论文发表),不定期更新
适用场景:
社交媒体仇恨言论检测(针对宗教群体)
印地语-英语代码混合语言处理(Code-mixed NLP)
多语言情感与情绪分析
Transformer、BERT 等模型在低资源语言中的迁移学习
公共政策与网络安全舆情分析支持
标签:仇恨言论检测,宗教攻击,社交媒体,NLP,低资源语言,印地语,代码混合,YouTube评论,文本分类,深度学习