俄语社交媒体短文本情感分析与毒性检测数据集-RuTweetCorp-2012-maximsuvorov
数据来源:互联网公开数据
标签:俄语,社交媒体,短文本,情感分析,毒性检测,文本分类,自然语言处理,机器学习,RuTweetCorp
数据概述:
本数据集源自论文《Рубцова Ю. Автоматическое построение и анализ корпуса коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора //Инженерия знаний и технологии семантического веба. – 2012. – Т. 1. – С. 109-116.》,该数据集基于RuTweetCorp,包含了来自俄罗斯社交媒体的短文本数据。本数据集仅保留了原始数据集中包含的文本内容,主要用于训练和评估用于识别社交媒体中负面或有害信息的模型,特别是针对毒性言论的检测。
数据用途概述:
该数据集主要用于自然语言处理领域,特别是情感分析、毒性检测和文本分类任务。研究人员可以使用该数据集训练和评估俄语社交媒体文本的毒性检测模型,开发用于识别仇恨言论、骚扰信息或其他有害内容的算法。同时,该数据集也适用于语言模型训练,以及探索俄语社交媒体用户的情感表达模式。