数据集概述
本数据集是用于研究自然语言中数学推理的多领域语料库,包含约三万条定理陈述及证明、一万五千条定义和两千页补充内容(如公理、推论),统一自ProofWiki、Stacks项目和数学教科书等来源,采用通用模式组织,支持非正式数学相关任务研究。
文件详解
- LICENSE
- 文件格式:无扩展名
- 字段映射介绍:数据集许可文件,包含使用权限和版权相关说明
- naturalproofs_stein.py
- 文件格式:.py
- 字段映射介绍:Python代码文件,可能用于数据集相关的数据处理或分析
- naturalproofs_stacks.json
- 文件格式:.json
- 字段映射介绍:Stacks项目来源的数学推理数据,包含定理、证明、定义等内容的结构化数据
- naturalproofs_trench.json
- 文件格式:.json
- 字段映射介绍:数学教科书来源的低资源数学推理数据,包含定理、证明、定义等内容的结构化数据
- naturalproofs_proofwiki.json
- 文件格式:.json
- 字段映射介绍:ProofWiki来源的广谱数学推理数据,包含定理、证明、定义等内容的结构化数据
数据来源
Welleck et al 2021及对应GitHub仓库
适用场景
- 数学推理模型训练: 用于训练和评估自然语言处理模型处理非正式数学内容的能力
- 数学知识图谱构建: 基于多源数学定义、定理和证明数据,构建结构化数学知识图谱
- 低资源数学文本处理: 利用教科书来源的低资源数据,研究数学领域少样本学习任务
- 多源数学数据融合: 分析不同来源(ProofWiki、Stacks项目、教科书)数学内容的差异与共性,探索统一表示方法