jigswig多语言IPA音译毒评分类数据集-davidbnn92

jigswig多语言IPA音译毒评分类数据集-davidbnn92 数据来源:互联网公开数据 标签:Jigsaw,多语言,毒评分类,IPA,音译,文本处理,数据集,机器学习

数据概述: 本数据集扩展了Jigsaw多语言毒评分类竞赛数据集,通过添加国际音标(IPA)音译列,旨在即使在文本媒介中,刺耳的声音也可能表示刺耳的想法。该数据集包含竞赛数据集中验证集(validation-processed-seqlen128.csv)和测试集(test-processed-seqlen128.csv)的部分数据,以及部分训练集(jigsaw-unintended-bias-train.csv)数据,并添加了transliterated_comment_text列。未来版本将包含更多数据。

数据用途概述: 该数据集适用于多语言毒评分类研究、文本处理与分析、自然语言处理(NLP)教学和研究。研究人员可以利用此数据进行音译效果评估、多语言模型训练和优化;教育者可以将其用于教学目的,帮助学生理解文本处理技术及其在实际应用中的重要性。该数据集为多语言文本处理提供了有价值的资源,有助于提高模型的鲁棒性和准确性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 177.7 MiB
最后更新 2025年5月11日
创建于 2025年5月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。