数据集概述
本数据集为全唐诗与全宋诗的押韵标注评估人工样本,包含三个JSON文件,记录了人工标注的诗歌押韵信息,旨在支持诗歌押韵标注任务的评估与人工标注一致性分析,是古典诗歌韵律研究的结构化参考资料。
文件详解
- hand_annotated_sample.json
- 文件格式:JSON
- 字段映射介绍:包含444首来自全唐诗和全宋诗的诗歌样本,由社区标注员预标注后经主要作者人工审核修订,记录诗歌押韵标注信息
- hand_annotated_subsample_(author).json
- 文件格式:JSON
- 字段映射介绍:上述文件的10%子样本(44首诗歌),标注内容与主文件完全一致
- hand_annotated_subsample_(colleague).json
- 文件格式:JSON
- 字段映射介绍:与作者子样本相同的44首诗歌,由作者同事独立标注,用于评估人工标注者间的一致性
适用场景
- 诗歌押韵标注算法评估:用于测试和验证自动押韵标注模型的准确性与可靠性
- 人工标注一致性研究:通过对比作者与同事标注结果,分析诗歌押韵标注任务的人工标注者间一致性
- 古典诗歌韵律研究:为全唐诗、全宋诗的押韵规律、格律特征分析提供结构化标注数据
- 文学标注方法论探索:探索古典文学文本人工标注的流程优化与质量控制方法