达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020

数据集概述

该数据集为三种低资源达罗毗荼语（泰米尔语、卡纳达语、马拉雅拉姆语）与英语的混合社交媒体评论数据，包含六万余条YouTube评论，经人工标注用于情感分析和冒犯性语言识别，标注者间一致性较高，支持相关自然语言处理研究。

文件详解

文件名称: DravidianCodeMix-2020.zip
文件格式: ZIP压缩包
内容说明: 压缩包内包含三种达罗毗荼语（泰米尔语、卡纳达语、马拉雅拉姆语）与英语的混合社交媒体评论数据，标注内容涵盖情感分析和冒犯性语言识别标签

适用场景

低资源语言自然语言处理研究：用于达罗毗荼语混合文本的情感分析模型训练与评估
冒犯性语言检测研究：构建针对多语言混合文本的冒犯性内容识别系统
社交媒体内容分析：分析达罗毗荼语用户在社交媒体上的语言使用及情感表达特征
计算语言学研究：探究多语言混合文本的编码规律及标注方法优化

数据与资源

4750858.zipZIP
10.29 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	10.29 MiB
最后更新	2025年12月21日
创建于	2025年12月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？