孟加拉语-英语-印地语混合语言侮辱性语言识别数据集
数据来源:互联网公开数据
标签:侮辱性语言,代码混合,孟加拉语,英语,印地语,自然语言处理,文本分类,情感分析
数据概述:
本数据集旨在用于侮辱性语言检测任务,包含10万条代码混合数据。数据由孟加拉语、英语和印地语三种语言混合而成。数据集的构建基于OLID[^1]和SOLID[^2]的标注方案,从中随机选取10万条数据实例。数据集的标签分为“非侮辱性(NOT)”和“侮辱性(OFF)”两类,并确保两类标签的数据数量大致相等。为了生成代码混合数据,采用了两种不同的方法:Krishnan等(2021)提出的随机代码混合算法[^3]和Santy等(2021)提出的r-CM算法[^4]。数据集分为train.csv、dev.csv和test.csv三部分,分别用于训练、验证和测试。
train.csv:
NOT: 40018条 (66.70%)
OFF: 19982条 (33.30%)
dev.csv:
NOT: 13339条 (66.70%)
OFF: 6661条 (33.30%)
test.csv:
NOT: 13340条 (66.70%)
OFF: 6660条 (33.30%)
数据用途概述:
该数据集主要用于训练和评估代码混合语言环境下的侮辱性语言检测模型,例如,可用于开发社交媒体内容审核系统、提升多语言环境下的情感分析能力,以及促进对代码混合语言的理解和处理。研究人员可以使用该数据集进行文本分类、自然语言处理、深度学习等相关研究。
引用:
如果您使用该数据集,请引用我们的论文:
@article{raihan2023mixed,
title={Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi},
author={Raihan, Md Nishat and Goswami, Dhiman and Mahmud, Antara},
journal={arXiv preprint arXiv:2309.10272},
year={2023}
}