维基数量与维基测量数据集

数据集概述

该数据集包含Wiki-Quantities和Wiki-Measurements两个子数据集,分别用于支持数量识别与测量上下文提取任务。数据从维基百科文章和维基数据事实启发式生成,部分样本添加S2ORC数据集引用以增强模型鲁棒性,为测量提取系统的开发与评估提供支持。

文件详解

  • 核心压缩文件:
  • Wiki-Quantities.zip: 数量识别任务数据集压缩包,包含不同处理级别(原始、预处理)和过滤级别(原始、大型、小型、微型)的JSON格式文件
  • Wiki-Measurements.zip: 测量上下文提取任务数据集压缩包,包含不同处理级别、过滤级别(大型、小型、严格版、上下文版等)的JSON格式文件
  • 文档文件:
  • README.md: 数据集说明文档,包含任务背景、数据结构、格式示例等核心信息
  • LICENSE.md: 许可协议文件,说明数据使用权限

适用场景

  • 自然语言处理研究: 用于训练和评估数量识别、测量上下文提取等NLP模型
  • 信息抽取系统开发: 支持定量信息抽取流水线系统的构建与优化
  • 科学文本处理: 提升模型对科学文献中数量表述的鲁棒性
  • 知识库构建: 为维基数据等知识库补充结构化的数量与测量上下文信息
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 323.05 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。