社交媒体平台印度语仇恨言论检测数据集-iamtheoneaj
数据来源:互联网公开数据
标签:仇恨言论,印度语,社交媒体,文本分析,自然语言处理,机器学习,情感分析,多标签分类
数据概述:
本数据集通过网络爬取的方式,从Twitter、Facebook和YouTube等社交媒体平台上收集了大量印度语文本数据,用于识别和分类仇恨言论。数据集旨在为训练多标签印度语仇恨言论检测模型提供支持。数据包含“text”和“label”两列,其中“text”列包含原始文本内容,“label”列则标注了文本所属的仇恨言论类别。
标签类别及其数据量如下:
* 诽谤 (defamation): 4542 条
* 仇恨 (hate): 5502 条
* 非仇恨 (non-hate): 4520 条
* 暴力 (violence): 4549 条
* 粗俗 (vulgar): 3194 条
数据用途概述:
该数据集主要用于训练和评估多标签分类模型,以检测印度语仇恨言论。研究人员可以利用此数据集进行文本分析、自然语言处理、情感分析等研究,并开发用于社交媒体内容审核、舆情监测、言论审查等应用的模型。此外,该数据集也适用于机器学习领域的模型训练和算法优化,以提升仇恨言论检测的准确性和效率。