数据集

jigswig多语言IPA音译毒评分类数据集-davidbnn92

jigswig多语言IPA音译毒评分类数据集-davidbnn92 数据来源：互联网公开数据标签：Jigsaw,多语言,毒评分类,IPA,音译,文本处理,数据集,机器学习

数据概述：本数据集扩展了Jigsaw多语言毒评分类竞赛数据集，通过添加国际音标（IPA）音译列，旨在即使在文本媒介中，刺耳的声音也可能表示刺耳的想法。该数据集包含竞赛数据集中验证集（validation-processed-seqlen128.csv）和测试集（test-processed-seqlen128.csv）的部分数据，以及部分训练集（jigsaw-unintended-bias-train.csv）数据，并添加了transliterated_comment_text列。未来版本将包含更多数据。

数据用途概述：该数据集适用于多语言毒评分类研究、文本处理与分析、自然语言处理（NLP）教学和研究。研究人员可以利用此数据进行音译效果评估、多语言模型训练和优化；教育者可以将其用于教学目的，帮助学生理解文本处理技术及其在实际应用中的重要性。该数据集为多语言文本处理提供了有价值的资源，有助于提高模型的鲁棒性和准确性。

数据与资源

versions_20250403185712.zipZIP
177.70 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	177.7 MiB
最后更新	2025年5月11日
创建于	2025年5月11日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

jigswig多语言IPA音译毒评分类数据集-davidbnn92

数据与资源

附加信息

注册成功！