数据集

多语言毒性评论检测数据集

多语言毒性评论检测数据集数据来源：互联网公开数据
标签：毒性评论,多语言,自然语言处理,机器学习,文本分类,跨语言学习

数据概述：
本数据集是多个毒性评论数据库的综合整理，旨在为毒性评论分类任务提供多样化的数据支持。数据集整合了来自多个竞赛和研究项目的数据，涵盖葡萄牙语、英语、俄语、土耳其语和意大利语等多种语言。数据内容包括毒性评论文本及其对应的注释标签，注释标签涉及仇恨言论、辱骂性语言、攻击性言论等多种类型。数据集经过清洗和整合，确保数据质量，适用于多语言毒性评论检测的研究与应用。

数据用途概述：
该数据集适用于多种场景，包括但不限于：
1. 毒性评论分类模型的训练与优化，支持多语言环境下的毒性内容检测。
2. 研究跨语言毒性评论的共性与差异，探索跨语言学习方法。
3. 支持社交媒体、论坛等场景中的内容审核与过滤系统开发。
4. 用于自然语言处理领域的学术研究，如文本分类、情感分析等。
5. 提供多语言数据支持，助力企业或开发者构建全球化的毒性评论检测系统。

数据与资源

多语言毒性评论检测数据集.zipZIP
49.34 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	49.34 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

多语言毒性评论检测数据集

数据与资源

附加信息

注册成功！