混杂代码混沌_多标签孟加拉英语与孟加拉语毒性分析语料库

数据集概述

该数据集针对NLP研究中常被忽视的孟加拉英语(Benglish,孟加拉语与英语混杂的罗马字母书写形式)毒性检测缺口,提供人工收集的多标签数据集,含一万零二百三十四条社交媒体评论,均等分为有毒和无毒类别,覆盖十种标注类型,助力相关毒性分析研究。

文件详解

该数据集包含一个目录及两个文件,具体说明如下: - 目录: Code-mixed Chaos Multi-labeled Banglish & Bangla/ - 文件名称: Banglish.xlsx - 文件格式: Excel (.xlsx) - 内容说明: 包含一万零二百三十四条孟加拉英语社交媒体评论,每条标注有毒或无毒类别,有毒评论细分为九种类型(粗俗类、宗教敌意类、 troll类、侮辱类、厌恶类、威胁类、种族类、性相关类、政治混乱类) - 文件名称: Bangla.xlsx - 文件格式: Excel (.xlsx) - 内容说明: 孟加拉英语数据集的孟加拉语翻译版本,用于支持基于文字脚本的毒性检测对比分析

适用场景

  • 自然语言处理研究: 用于训练和评估孟加拉英语及孟加拉语的多标签毒性检测模型
  • 社交媒体内容安全: 分析多语言混杂环境下的有害信息特征与分类方法
  • 计算语言学: 研究代码混杂语言(如孟加拉英语)的文本特性对毒性识别的影响
  • 跨语言对比分析: 对比罗马字母书写的孟加拉英语与本土文字书写的孟加拉语在毒性检测任务中的差异
  • 语料库语言学: 构建针对南亚混杂语言的标注语料库,支持相关语言学研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.72 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。