CaRS_50学术论文引言修辞步骤标注语料库

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

CaRS_50学术论文引言修辞步骤标注语料库

数据集概述

该数据集包含50篇学术论文引言的XML标注文件，基于Swales的CaRS模型标注每个句子的修辞功能（Move 1-3及对应Step a-d）。论文来源于BioRxiv，覆盖动物行为与认知等5个生物学科，每类10篇，为学术写作修辞结构研究提供标注数据。

文件详解

目录结构：
CaRS-50 Dataset Annotated corpus of rhetorical Mov/: 主目录
CaRS-50 Dataset Annotated corpus of rhetorical Mov/Annotated Dataset/: 标注数据存储目录
文件内容：
50个XML格式文件（如text008.xml、text012.xml等），占比百分之百
XML层级结构：
: 根元素
: 唯一标识符
: 论文标题
: 作者列表
: DOI链接
: 来源库（如biorxiv）
: 学科分类
: 引言文本容器
: 段落
: 句子
: 句子唯一ID
: 句子原始文本
: 修辞标注（如2b，对应Move 2 Step b）

适用场景

学术写作研究：分析生物学科论文引言的修辞结构规律
自然语言处理：训练学术文本修辞功能自动识别模型
英语学术写作教学：设计学术论文引言写作的教学资源
语篇分析：探究不同生物子学科间的学术语篇修辞差异

数据与资源

kwr9s5c4nk-1.zipZIP
0.14 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.14 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？