俄语社交媒体短文本情感分析与毒性检测数据集-RuTweetCorp-2012-maximsuvorov

俄语社交媒体短文本情感分析与毒性检测数据集-RuTweetCorp-2012-maximsuvorov

数据来源:互联网公开数据

标签:俄语,社交媒体,短文本,情感分析,毒性检测,文本分类,自然语言处理,机器学习,RuTweetCorp

数据概述: 本数据集源自论文《Рубцова Ю. Автоматическое построение и анализ корпуса коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора //Инженерия знаний и технологии семантического веба. – 2012. – Т. 1. – С. 109-116.》,该数据集基于RuTweetCorp,包含了来自俄罗斯社交媒体的短文本数据。本数据集仅保留了原始数据集中包含的文本内容,主要用于训练和评估用于识别社交媒体中负面或有害信息的模型,特别是针对毒性言论的检测。

数据用途概述: 该数据集主要用于自然语言处理领域,特别是情感分析、毒性检测和文本分类任务。研究人员可以使用该数据集训练和评估俄语社交媒体文本的毒性检测模型,开发用于识别仇恨言论、骚扰信息或其他有害内容的算法。同时,该数据集也适用于语言模型训练,以及探索俄语社交媒体用户的情感表达模式。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 746.84 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。