数据集

多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho

数据来源：互联网公开数据

标签：文本分类, 恶意评论, 多语言, 自然语言处理, 情感分析, 语言模型, 文本清洗, 机器学习

数据概述：该数据集包含来自Jigsaw数据集的恶意评论，这些评论被翻译成多种语言，旨在用于多语言恶意评论检测任务。主要特征如下：时间跨度：数据未标明具体时间，可视为静态文本数据集。地理范围：数据涵盖了多种语言环境下的恶意评论，包括西班牙语、葡萄牙语、意大利语、土耳其语、俄语和法语。数据维度：数据集包含三个主要字段：“Unnamed: 0”（索引）、“id”（评论唯一标识符）和“translated”（翻译后的评论文本）。数据格式：CSV格式，每个语言对应一个单独的CSV文件，文件以“jigsaw-toxic-comment-train-google-”开头，后接语言代码（如es代表西班牙语）。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘和情感分析等领域的学术研究，尤其是在多语言恶意内容检测、跨语言情感分析等方向。行业应用：可用于社交媒体平台、论坛、评论区等场景的恶意内容过滤，以及内容审核系统的开发与优化。决策支持：为内容安全策略制定提供数据支持，帮助平台更好地管理和维护社区环境。教育和培训：作为自然语言处理、机器学习等相关课程的实训数据，帮助学生和研究人员实践多语言文本处理技术。此数据集特别适合用于探索跨语言恶意评论的特征，构建多语言恶意内容检测模型，提高内容审核的效率和准确性。

数据与资源

versions_20250329100655.zipZIP
62.13 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	62.13 MiB
最后更新	2025年5月30日
创建于	2025年5月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho

数据与资源

附加信息

注册成功！