Pygotham_学术引用句子完整数据集2017

数据集概述

本数据集包含从CC-BY许可的学术论文中提取的29,105个包含引用的句子,主要用于学术文本引用分析研究。数据集提供了原始句子数据、数据处理和分析工具,包括Databricks社区版笔记本和相关的技术演示材料,支持对学术引用模式、上下文分析等研究应用。

文件详解

  • 学术引用句子数据文件
  • 文件名称:pygothamCleanDataset.csv
  • 文件格式:CSV
  • 字段映射介绍:包含bibrefId(引用文献ID)、docId(文档ID)、itemType(项目类型)、asjc(学科分类代码)、scopusId(Scopus标识符)、sentence(句子文本)、sectionTitle(章节标题)等关键字段,涵盖引用句子的完整上下文信息。
  • 数据处理与分析工具
  • 文件名称:pygotham-cox-harper.dbc
  • 文件格式:DBC(Databricks社区版笔记本)
  • 字段映射介绍:提供数据预处理和探索性分析的工作流程代码。
  • 数据查看工具
  • 文件名称:pygotham-cox-harper.html
  • 文件格式:HTML
  • 字段映射介绍:网页格式的数据查看界面,便于快速浏览数据集内容。
  • 技术演示材料
  • 文件名称:Pygotham Cox Harper 2017.pdf
  • 文件格式:PDF
  • 字段映射介绍:包含数据集的技术背景、使用方法和相关研究成果的演示文稿。

数据来源

Pygotham 2017会议

适用场景

  • 学术引用模式分析:研究不同学科领域的引用习惯、引用上下文特征和引用分布规律。
  • 学术文本挖掘:基于引用句子的文本特征进行自然语言处理任务,如引用意图分类、引用推荐等。
  • 学科交叉研究:通过学科分类代码(ASJC)分析不同学科间的引用关系和知识流动模式。
  • 学术写作辅助:为学术论文写作提供引用上下文参考和最佳实践案例。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.68 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。