NaturalProofs_Based_数学推理自然语言多源语料库数据

数据集概述

本数据集是用于研究自然语言中数学推理的多领域语料库,包含约三万条定理陈述及证明、一万五千条定义和两千页补充内容(如公理、推论),统一自ProofWiki、Stacks项目和数学教科书等来源,采用通用模式组织,支持非正式数学相关任务研究。

文件详解

  • LICENSE
  • 文件格式:无扩展名
  • 字段映射介绍:数据集许可文件,包含使用权限和版权相关说明
  • naturalproofs_stein.py
  • 文件格式:.py
  • 字段映射介绍:Python代码文件,可能用于数据集相关的数据处理或分析
  • naturalproofs_stacks.json
  • 文件格式:.json
  • 字段映射介绍:Stacks项目来源的数学推理数据,包含定理、证明、定义等内容的结构化数据
  • naturalproofs_trench.json
  • 文件格式:.json
  • 字段映射介绍:数学教科书来源的低资源数学推理数据,包含定理、证明、定义等内容的结构化数据
  • naturalproofs_proofwiki.json
  • 文件格式:.json
  • 字段映射介绍:ProofWiki来源的广谱数学推理数据,包含定理、证明、定义等内容的结构化数据

数据来源

Welleck et al 2021及对应GitHub仓库

适用场景

  • 数学推理模型训练: 用于训练和评估自然语言处理模型处理非正式数学内容的能力
  • 数学知识图谱构建: 基于多源数学定义、定理和证明数据,构建结构化数学知识图谱
  • 低资源数学文本处理: 利用教科书来源的低资源数据,研究数学领域少样本学习任务
  • 多源数学数据融合: 分析不同来源(ProofWiki、Stacks项目、教科书)数学内容的差异与共性,探索统一表示方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 159.81 MiB
最后更新 2026年1月26日
创建于 2026年1月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。