多语言恶意评论翻译数据集MultilingualToxicCommentTranslationDataset-sandiago21

多语言恶意评论翻译数据集MultilingualToxicCommentTranslationDataset-sandiago21

数据来源:互联网公开数据

标签:多语言, 文本翻译, 恶意评论, 自然语言处理, 机器翻译, 文本分析, 语料库, Jigsaw

数据概述: 该数据集包含来自Jigsaw数据集的多语言评论翻译数据,旨在用于跨语言的恶意评论检测与分析。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态语料库。 地理范围:数据来源于互联网,评论内容涵盖多种文化背景。 数据维度:数据集包含多个CSV文件,每个文件对应一种目标语言。每个文件包含原始评论文本(comment_text_original)和翻译成其他五种语言的文本,具体字段包括:comment_text_ru(俄语), comment_text_tr(土耳其语), comment_text_pt(葡萄牙语), comment_text_it(意大利语), comment_text_es(西班牙语), comment_text_fr(法语)。 数据格式:CSV格式,文件名为jigsaw_test_es_to_rest_5_languages_final.csv、jigsaw_test_fr_to_rest_5_languages_final.csv、jigsaw_test_it_to_rest_5_languages_final.csv、jigsaw_test_pt_to_rest_5_languages_final.csv、jigsaw_test_ru_to_rest_5_languages_final.csv、jigsaw_test_tr_to_rest_5_languages_final.csv,方便数据处理和分析。 来源信息:数据来源于Jigsaw项目,用于支持对抗性言论和骚扰检测。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于机器翻译、跨语言文本分析、多语言恶意评论检测等领域的学术研究。 行业应用:可用于构建多语言内容过滤系统、社交媒体平台上的恶意内容识别和管理。 决策支持:支持企业进行全球化内容审核,以及跨文化交流中的风险评估。 教育和培训:作为自然语言处理、机器翻译等课程的实训数据集,帮助学生理解多语言文本处理技术。 此数据集特别适合用于研究不同语言间的恶意评论表达方式差异,以及开发更精准的跨语言恶意内容检测模型,从而提升内容安全管理效率。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 64.83 MiB
最后更新 2025年5月12日
创建于 2025年5月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。