波斯语文本蕴含推理数据集FarsTail

波斯语文本蕴含推理数据集FarsTail 数据来源:互联网公开数据 标签:自然语言处理,文本蕴含,NLI,波斯语,波斯文,Farsi,数据集,机器翻译,语言学

数据概述: FarsTail是一个用于波斯语(Farsi)自然语言推理(NLI,也称为文本蕴含)任务的数据集。NLI旨在判断前提(p)和假设(h)之间的推理关系。该任务是一个三分类问题,每个(p, h)对被分配到以下类别之一:“ENTAILMENT”(蕴含),如果假设可以从前提推断出来;“CONTRADICTION”(矛盾),如果假设与前提矛盾;以及“NEUTRAL”(中立),如果以上情况都不成立。FarsTail数据集由10,367个样本组成,这些样本是从3,539个多项选择题中生成的。数据集被划分为训练集(7,266个实例)、验证集(1,537个实例)和测试集(1,564个实例)。

数据用途概述: 该数据集主要用于波斯语自然语言处理领域的研究,特别是文本蕴含任务。研究人员可以使用FarsTail数据集来训练和评估NLI模型,探索波斯语的语言理解能力。该数据集也为低资源语言NLI任务的研究提供了宝贵的资源,可以用于对比分析、跨语言迁移学习等研究。此外,FarsTail数据集可用于推动波斯语NLP技术的发展,例如机器翻译、文本摘要等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.53 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。