CLAO_全唐诗宋词自动标注补充数据

数据集概述

本数据集包含全唐诗和全宋词的完整诗歌内容,通过Community annotator工具进行自动标注,是论文“Leveraging graph algorithms to speed up the annotation of large rhymed corpora”的补充材料,可用于古典文学文本的标注研究与分析。

文件详解

  • 文件名称:qts_qss_annotations.zip
  • 文件格式:ZIP
  • 内容说明:压缩包内包含全唐诗、全宋词的自动标注数据,具体字段及结构需解压后查看原始文件。

数据来源

论文“Leveraging graph algorithms to speed up the annotation of large rhymed corpora”(CLAO vol 51)

适用场景

  • 古典文学文本标注研究:分析自动标注工具在大规模韵文语料中的应用效果与准确性。
  • 唐宋诗歌文本挖掘:基于标注数据开展唐诗、宋词的主题、韵律、风格等文本特征研究。
  • 自然语言处理模型训练:为古典文学领域的自动标注、文本分类等NLP任务提供训练数据。
  • 学术论文补充验证:支持论文中提出的图算法加速大规模语料标注方法的效果验证。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 40.97 MiB
最后更新 2026年2月15日
创建于 2026年2月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。