数据集概述
本数据集记录了Fanelli 2009年发表的论文《How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data》的引用语境语料库构建方法及结果。通过Semantic Scholar API获取部分引用语境,结合Unpaywall API补充开放获取文献的PDF转换文本,经TXM工具处理和人工清洗后,形成包含原始数据、排除记录和分析数据的结构化文件,支持文献引用意图与内容分析。
文件详解
- 文件名称:Fanelli_Citation_Contexts-ZENODO.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含三个工作表
- 工作表1:citcontext (RAW DATA) - 记录从Semantic Scholar API及开放获取文献中提取的所有引用语境原始数据
- 工作表2:Excluded from analysis - 记录87条因语境过短、非英法语种、重复等原因被排除的引用记录及排除理由
- 工作表3:Analysis of citcontext - 记录737条有效引用语境,包含是否提及2%数据、该数据是否被正确归因于研究者自报等人工分类字段
数据来源
Semantic Scholar、Unpaywall API、TXM文本分析工具及人工处理
适用场景
- 学术文献引用意图分析:研究该论文在后续文献中的引用目的与影响方向
- 科研诚信研究:分析2%科研造假率数据在学术传播中的使用与误读情况
- 开放获取文献补充机制研究:评估Unpaywall API在学术数据补全中的应用效果
- 文本挖掘方法论验证:验证结合API与专业工具构建引用语境语料库的可行性
- 学术传播模式研究:探索高影响力论文的引用分布及传播路径特征