Webis_Based_Wikipedia科技创新历史数据_2023

数据集概述

本数据集包含从2022年1月1日维基媒体数据转储中提取的维基百科科学和技术类文章的历史部分,通过维基百科分类网络检索文章,结合基于章节标题的启发式方法和分类器提取历史章节,形成一个JSON文件。

文件详解

  • 文件名称:webis-WikiSciTech-23.json
  • 文件格式:JSON
  • 字段映射介绍:未提供具体字段映射信息,文件为JSON格式,包含从维基百科科学和技术类文章中提取的历史章节内容。

数据来源

论文“Mining the History Sections of Wikipedia Articles on Science and Technology”

适用场景

  • 科技历史研究:用于分析维基百科中科学和技术类文章的历史章节内容,挖掘科技创新的发展脉络。
  • 自然语言处理应用:作为训练数据,支持文本分类、信息抽取等自然语言处理任务。
  • 维基百科内容分析:研究维基百科中科技类文章的历史章节结构和内容特点。
  • 学术研究数据支持:为相关学术研究提供结构化的科技历史文本数据。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 25.01 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。