OEDILF_Based_计算诗学用人类创作打油诗数据集_v3

数据集概述

本数据集包含从The Omnificent English Dictionary In Limerick Form(OEDILF)网站抓取的98千首人类创作的五行打油诗。数据经基础格式过滤(确保每行五句、无表情符号和特殊符号),并附作者信息、网站ID及"is_limerick"等元数据,用于标识打油诗形式验证结果,支持计算诗学领域的自然语言处理研究。

文件详解

  • 文件名称:limerick_dataset_oedilf_v3.json
  • 文件格式:JSON
  • 字段映射介绍:包含每个打油诗的文本内容及元数据,元数据字段包括作者信息、在OEDILF网站内的唯一ID,以及"is_limerick"(布尔值,标识是否通过自定义形式过滤器验证,True为验证通过,False为未通过)

数据来源

The Omnificent English Dictionary In Limerick Form(OEDILF)网站

适用场景

  • 计算诗学研究: 分析诗歌的形式结构、韵律特征及叙事连贯性,探索语言模型的诗学知识。
  • 自然语言处理模型训练: 用于训练和评估文本生成模型在诗歌创作、形式识别任务中的性能。
  • 打油诗形式验证算法开发: 基于"is_limerick"标签构建基准,优化诗歌形式检测模型。
  • 人类创作文本分析: 研究人类创作的打油诗的语言特征、风格差异及创作规律。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 23.23 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。