ACL_cite_Based_学术句子引用价值预测标注数据集

数据集概述

本数据集为NAACL 2021论文配套的ACL-cite数据集,包含从ACL Anthology学术文献中提取的270余万句学术文本,及对应句子是否需要引用的标注标签,用于研究上下文对句子引用价值预测的作用。数据集含三个CSV文件,按文档ID划分训练、验证和测试集。

文件详解

  • 压缩包文件
  • 文件名称:ACL-cite.zip
  • 文件格式:ZIP
  • 包含文件:
  • train.csv:1,625,268行,含训练数据
  • dev.csv:539,085行,含验证数据
  • test.csv:542,081行,含测试数据
  • 字段映射:所有CSV文件均包含document_id(文献ID)、section(章节名)、section_id(章节序号)、paragraph_id(段落序号)、sentence(去引用句)、raw_sentence(含引用原句)、sentence_id(句子序号)、label(引用价值标签)字段

数据来源

论文“On the Use of Context for Predicting Citation Worthiness of Sentences in Scholarly Articles”

适用场景

  • 学术文本引用价值预测: 基于标注数据训练模型,判断句子是否需要引用
  • 自然语言处理任务: 用于上下文建模、句子级分类等NLP任务的模型训练与验证
  • 学术文献分析: 研究学术文本中引用行为的分布规律与上下文关联
  • 文献引用辅助工具开发: 为自动引用推荐、学术写作辅助工具提供数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 154.51 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。