数据集

范内利_2009_年_PLOS_ONE_论文引用语境与语料库构建数据

数据集概述

本数据集记录了Fanelli 2009年发表的论文《How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data》的引用语境语料库构建方法及结果。通过Semantic Scholar API获取部分引用语境，结合Unpaywall API补充开放获取文献的PDF转换文本，经TXM工具处理和人工清洗后，形成包含原始数据、排除记录和分析数据的结构化文件，支持文献引用意图与内容分析。

文件详解

文件名称：Fanelli_Citation_Contexts-ZENODO.xlsx
文件格式：XLSX
字段映射介绍：包含三个工作表
工作表1：citcontext (RAW DATA) - 记录从Semantic Scholar API及开放获取文献中提取的所有引用语境原始数据
工作表2：Excluded from analysis - 记录87条因语境过短、非英法语种、重复等原因被排除的引用记录及排除理由
工作表3：Analysis of citcontext - 记录737条有效引用语境，包含是否提及2%数据、该数据是否被正确归因于研究者自报等人工分类字段

数据来源

Semantic Scholar、Unpaywall API、TXM文本分析工具及人工处理

适用场景

学术文献引用意图分析：研究该论文在后续文献中的引用目的与影响方向
科研诚信研究：分析2%科研造假率数据在学术传播中的使用与误读情况
开放获取文献补充机制研究：评估Unpaywall API在学术数据补全中的应用效果
文本挖掘方法论验证：验证结合API与专业工具构建引用语境语料库的可行性
学术传播模式研究：探索高影响力论文的引用分布及传播路径特征

数据与资源

14417422.zipZIP
0.25 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.25 MiB
最后更新	2026年1月23日
创建于	2026年1月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。