childPoeDE_德国儿童诗歌计算与实验研究元数据

数据集概述

该数据集是CHYLSA项目下的childPoeDE语料库元数据,包含一千零八十二首1991至2019年出版的德国儿童诗歌的元数据,涵盖诗歌层面(作者、长度、韵律等)、词元层面(词性、拟声词等)信息,以及词频表和处理脚本等。

文件详解

  • 数据文件(CSV格式):
  • childPoeDE_poemlevel_metadata.csv:诗歌层面元数据,字段包括Poem_Id(诗歌ID)、Title_Poem(诗歌标题)、Author(作者)、Gender(性别)、Publication_Year_Anthology(诗集出版年份)等
  • childPoeDE_tokenlevel_metadata_reduced.csv:词元层面元数据,包含词长、词性标签、拟声词标识等字段
  • childPoeDE_wordfreq_data.csv:词频数据表
  • childPoeDE_TTR_data.csv:类型-词元比(TTR)数据,包含types_per_doc(类型数)、token_per_doc(词元数)、TTR值等字段
  • childPoeDE_poem_omissions.csv:未纳入语料库的诗歌列表,字段包括Author(作者)、Title(标题)、Anthology(诗集)
  • 说明文档(TXT格式):
  • README_childPoeDE_wordfreq_data.txt:词频数据说明文档
  • README_childPoeDE_ttr_data.txt:TTR数据说明文档
  • README_childPoeDE_tokenlevel_metadata_reduced.txt:词元层面元数据说明文档
  • README_childPoeDE_poemlevel_metadata.txt:诗歌层面元数据说明文档
  • 代码文件:
  • poemtool.py:Python脚本,用于从文本中提取部分元数据
  • 图片文件:
  • childPoeDE_poemlevel_data_overview.png:诗歌层面数据概览图

数据来源

DFG Schwerpunktprogramm SPP 2207 “Computational Literary Studies”、Subproject “CHYLSA (Children’s and Youth Literature Sentiment Analysis)”

适用场景

  • 计算文学研究:分析儿童诗歌的语言特征、韵律模式与文本结构
  • 情感分析研究:探索儿童文学中的情感表达规律
  • 语言学研究:研究德语儿童诗歌的词频分布、词性使用特点
  • 教育应用:为儿童语言教育资源开发提供数据支撑
  • 自然语言处理:用于诗歌文本处理模型的训练与验证
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 26.2 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。