数据集

SWAG自然语言推理数据集-场景理解与常识推理

SWAG自然语言推理数据集-场景理解与常识推理数据来源：互联网公开数据
标签：自然语言推理,物理场景推理,常识推理,多选题,视频描述,对抗性生成,机器学习

数据概述：
SWAG（Situations With Adversarial Generations）是一个大规模的自然语言推理数据集，旨在统一自然语言推理和基于物理场景的推理任务。该数据集包含约11.3万个多选题，每个问题基于LSMDC或ActivityNet Captions中的视频描述，描述了一个具体场景。每个问题提供四个答案选项，其中一个是视频中真实发生的下一个事件的正确描述，其余三个是由对抗性生成并经过人工验证的错误选项，这些错误选项设计得足够复杂，旨在迷惑机器但不会迷惑人类。SWAG数据集为研究基于场景的常识推理提供了丰富的语料支持。

数据用途概述：
SWAG数据集适用于以下场景：
1. 自然语言推理任务：研究者可以利用该数据集训练和评估机器在基于场景的推理能力，特别是对视频描述中的因果关系和事件预测进行分析。
2. 物理场景理解：通过结合视频描述和常识推理，研究者可以探索机器在理解复杂物理场景和事件演进方面的潜力。
3. 对抗性学习：由于错误选项是经过对抗性生成并验证的，该数据集特别适合用于开发和测试机器学习模型的鲁棒性，尤其是在区分人类易懂但机器易混淆的选项方面。
4. 多选题生成与评估：SWAG的格式和设计使其成为多选题生成和评估的理想的基准数据集，适用于教育、考试和自然语言处理的应用场景。
5. 跨模态研究：结合视频内容和文本描述，SWAG数据集为跨模态学习提供了丰富的语料支持，有助于研究视频和语言之间的关联性。

该数据集对于从事自然语言处理、机器学习以及人工智能研究的学者和开发者具有重要价值，可以广泛应用于学术研究和实际应用。

数据与资源

SWAG自然语言推理数据集-场景理解与常识推理.zipZIP
23.89 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	23.89 MiB
最后更新	2025年4月19日
创建于	2025年4月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

SWAG自然语言推理数据集-场景理解与常识推理

数据与资源

附加信息

注册成功！