CaRS_50学术论文引言修辞步骤标注语料库

数据集概述

该数据集包含50篇学术论文引言的XML标注文件,基于Swales的CaRS模型标注每个句子的修辞功能(Move 1-3及对应Step a-d)。论文来源于BioRxiv,覆盖动物行为与认知等5个生物学科,每类10篇,为学术写作修辞结构研究提供标注数据。

文件详解

  • 目录结构:
  • CaRS-50 Dataset Annotated corpus of rhetorical Mov/: 主目录
  • CaRS-50 Dataset Annotated corpus of rhetorical Mov/Annotated Dataset/: 标注数据存储目录
  • 文件内容:
  • 50个XML格式文件(如text008.xml、text012.xml等),占比百分之百
  • XML层级结构:
  • : 根元素
  • : 唯一标识符
  • : 论文标题
  • : 作者列表
  • : DOI链接
  • : 来源库(如biorxiv)
  • : 学科分类
  • : 引言文本容器
  • : 段落
  • : 句子
  • : 句子唯一ID
  • : 句子原始文本
  • : 修辞标注(如2b,对应Move 2 Step b)

适用场景

  • 学术写作研究:分析生物学科论文引言的修辞结构规律
  • 自然语言处理:训练学术文本修辞功能自动识别模型
  • 英语学术写作教学:设计学术论文引言写作的教学资源
  • 语篇分析:探究不同生物子学科间的学术语篇修辞差异
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.14 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。