范内利_2009_年_PLOS_ONE_论文引用语境与语料库构建数据

数据集概述

本数据集记录了Fanelli 2009年发表的论文《How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data》的引用语境语料库构建方法及结果。通过Semantic Scholar API获取部分引用语境,结合Unpaywall API补充开放获取文献的PDF转换文本,经TXM工具处理和人工清洗后,形成包含原始数据、排除记录和分析数据的结构化文件,支持文献引用意图与内容分析。

文件详解

  • 文件名称:Fanelli_Citation_Contexts-ZENODO.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含三个工作表
  • 工作表1:citcontext (RAW DATA) - 记录从Semantic Scholar API及开放获取文献中提取的所有引用语境原始数据
  • 工作表2:Excluded from analysis - 记录87条因语境过短、非英法语种、重复等原因被排除的引用记录及排除理由
  • 工作表3:Analysis of citcontext - 记录737条有效引用语境,包含是否提及2%数据、该数据是否被正确归因于研究者自报等人工分类字段

数据来源

Semantic Scholar、Unpaywall API、TXM文本分析工具及人工处理

适用场景

  • 学术文献引用意图分析:研究该论文在后续文献中的引用目的与影响方向
  • 科研诚信研究:分析2%科研造假率数据在学术传播中的使用与误读情况
  • 开放获取文献补充机制研究:评估Unpaywall API在学术数据补全中的应用效果
  • 文本挖掘方法论验证:验证结合API与专业工具构建引用语境语料库的可行性
  • 学术传播模式研究:探索高影响力论文的引用分布及传播路径特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.25 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。