数据集

多语言恶意评论翻译数据集MultilingualToxicCommentTranslationDataset-sandiago21

数据来源：互联网公开数据

标签：多语言, 文本翻译, 恶意评论, 自然语言处理, 机器翻译, 文本分析, 语料库, Jigsaw

数据概述：该数据集包含来自Jigsaw数据集的多语言评论翻译数据，旨在用于跨语言的恶意评论检测与分析。主要特征如下：时间跨度：数据未明确标注时间，可视为静态语料库。地理范围：数据来源于互联网，评论内容涵盖多种文化背景。数据维度：数据集包含多个CSV文件，每个文件对应一种目标语言。每个文件包含原始评论文本（comment_text_original）和翻译成其他五种语言的文本，具体字段包括：comment_text_ru（俄语）, comment_text_tr（土耳其语）, comment_text_pt（葡萄牙语）, comment_text_it（意大利语）, comment_text_es（西班牙语）, comment_text_fr（法语）。数据格式：CSV格式，文件名为jigsaw_test_es_to_rest_5_languages_final.csv、jigsaw_test_fr_to_rest_5_languages_final.csv、jigsaw_test_it_to_rest_5_languages_final.csv、jigsaw_test_pt_to_rest_5_languages_final.csv、jigsaw_test_ru_to_rest_5_languages_final.csv、jigsaw_test_tr_to_rest_5_languages_final.csv，方便数据处理和分析。来源信息：数据来源于Jigsaw项目，用于支持对抗性言论和骚扰检测。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于机器翻译、跨语言文本分析、多语言恶意评论检测等领域的学术研究。行业应用：可用于构建多语言内容过滤系统、社交媒体平台上的恶意内容识别和管理。决策支持：支持企业进行全球化内容审核，以及跨文化交流中的风险评估。教育和培训：作为自然语言处理、机器翻译等课程的实训数据集，帮助学生理解多语言文本处理技术。此数据集特别适合用于研究不同语言间的恶意评论表达方式差异，以及开发更精准的跨语言恶意内容检测模型，从而提升内容安全管理效率。

数据与资源

versions_20250318012200.zipZIP
64.83 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	64.83 MiB
最后更新	2025年5月12日
创建于	2025年5月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

多语言恶意评论翻译数据集MultilingualToxicCommentTranslationDataset-sandiago21

数据与资源

附加信息

注册成功！