达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020

数据集概述

该数据集为三种低资源达罗毗荼语(泰米尔语、卡纳达语、马拉雅拉姆语)与英语的混合社交媒体评论数据,包含六万余条YouTube评论,经人工标注用于情感分析和冒犯性语言识别,标注者间一致性较高,支持相关自然语言处理研究。

文件详解

  • 文件名称: DravidianCodeMix-2020.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 压缩包内包含三种达罗毗荼语(泰米尔语、卡纳达语、马拉雅拉姆语)与英语的混合社交媒体评论数据,标注内容涵盖情感分析和冒犯性语言识别标签

适用场景

  • 低资源语言自然语言处理研究:用于达罗毗荼语混合文本的情感分析模型训练与评估
  • 冒犯性语言检测研究:构建针对多语言混合文本的冒犯性内容识别系统
  • 社交媒体内容分析:分析达罗毗荼语用户在社交媒体上的语言使用及情感表达特征
  • 计算语言学研究:探究多语言混合文本的编码规律及标注方法优化
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.29 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。