波斯古典诗歌玛斯纳维文本数据集MasnaviPoetryTextDataset-minar61
数据来源:互联网公开数据
标签:波斯古典诗歌, 文本生成, 诗歌分析, 机器翻译, 自然语言处理, 诗歌创作, 对比分析, 数据清洗
数据概述:
该数据集包含来自波斯古典诗歌《玛斯纳维》的文本数据,记录了诗歌的原文、释义与相关信息。主要特征如下:
时间跨度:数据未明确标注具体创作时间,但《玛斯纳维》属于13世纪的波斯古典文学作品。
地理范围:数据主要涉及波斯文化圈,包括伊朗、阿富汗等地区。
数据维度:数据集包含“prompt”(诗歌原文)、“completion”(诗歌释义)和“text”(诗歌原文+释义)以及“poetry”(诗歌原文)四个字段,便于进行文本分析和诗歌创作研究。
数据格式:CSV格式,文件名为cleaned_masnavicsv,方便进行文本处理和分析。
来源信息:数据来源于对《玛斯纳维》的数字化整理和清洗,已进行文本的对齐和初步校对。
该数据集适合用于诗歌文本分析、机器翻译、文本生成等领域的研究。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于古典诗歌、文学研究、自然语言处理等领域的学术研究,如诗歌风格分析、情感分析、文本相似度计算等。
行业应用:可为语言学习、文化传播、数字出版等行业提供数据支持,尤其在构建波斯语语言模型、诗歌创作辅助工具等方面具备实用价值。
决策支持:支持文化机构和教育部门对古典文学作品的数字化整理与研究,促进文化遗产的保护与传承。
教育和培训:作为语言学、文学、计算机科学等课程的辅助材料,帮助学生和研究人员深入理解波斯古典诗歌。
此数据集特别适合用于探索波斯古典诗歌的语言特点、创作规律,以及研究文本生成、机器翻译等技术在文化遗产领域的应用,从而提升相关研究的深度和广度。