矛盾侦探瓦森翻译数据集

矛盾侦探瓦森翻译数据集 数据来源:互联网公开数据 标签:自然语言处理,数据增强,翻译,机器学习,文本分析,竞赛数据 数据概述: 本数据集为“Contradictory, My Dear Watson”竞赛的训练与测试数据集,经过翻译增强处理。该数据集利用了@jpmiller的数据增强技巧,通过翻译来扩展原始数据集。由于竞赛的单次运行时间限制在2小时,为了训练K-Fold XLM Roberta模型,作者在预处理步骤中进行了数据增强。增强后的训练数据集包含24240行,而原始竞赛数据仅包含12120条记录。数据集中包含了ID、前提、假设、标签以及文本语言及其双字母缩写信息。测试数据集包含ID、前提、假设、语言及其双字母缩写,但不包含标签。 数据用途概述: 该数据集适用于自然语言处理任务中的矛盾检测研究,特别适合需要大规模多语言数据集的场景。研究者可以利用此数据集训练和评估多语言文本分类模型,如XLM Roberta。竞赛参与者可以使用该数据集来提高模型的泛化能力,并在比赛中取得更好的成绩。此外,该数据集也可以用于教育培训,帮助学习者理解多语言文本处理技术及其在矛盾检测中的应用。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 15, 2025, 03:37 (UTC)
创建于 四月 15, 2025, 03:36 (UTC)