ACL_cite_Based_学术句子引用价值预测标注数据集

本数据集为NAACL 2021论文配套的ACL-cite数据集，包含从ACL Anthology学术文献中提取的270余万句学术文本，及对应句子是否需要引用的标注标签，用于研究上下文对句子引用价值预测的作用。数据集含三个CSV文件，按文档ID划分训练、验证和测试集。

压缩包文件
文件名称：ACL-cite.zip
文件格式：ZIP
包含文件：
train.csv：1,625,268行，含训练数据
dev.csv：539,085行，含验证数据
test.csv：542,081行，含测试数据
字段映射：所有CSV文件均包含document_id（文献ID）、section（章节名）、section_id（章节序号）、paragraph_id（段落序号）、sentence（去引用句）、raw_sentence（含引用原句）、sentence_id（句子序号）、label（引用价值标签）字段

论文“On the Use of Context for Predicting Citation Worthiness of Sentences in Scholarly Articles”

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	154.51 MiB
最后更新	2026年1月29日
创建于	2026年1月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。