数据19世纪作家Wordle词汇数据集

数据19世纪作家Wordle词汇数据集 数据来源:互联网公开数据 标签:Wordle, 词汇, 19世纪, 文学, 作者, 文本分析, 自然语言处理, 项目古腾堡

数据概述: 本数据集基于从项目古腾堡(Project Gutenberg)下载的公有领域书籍构建。数据集选取标准如下:书籍收录于项目古腾堡目录;版权已过期,属于公有领域;书籍以英文撰写;书籍提供简单的文本格式下载;书籍由单一作者创作;作者至少部分生活在19世纪。

数据集旨在探索使用不同作者作品训练的Wordle求解器在不同作者作品上的表现。例如,一个基于马克·吐温作品训练的Wordle求解器,在面对赫尔曼·梅尔维尔更为华丽的风格时,是否会遇到困难?

为此,我们构建了该数据集。从项目古腾堡下载符合上述标准的所有书籍后,我们为每本书编译了一个Wordle词典,提取5个字母的单词,并记录单词的使用频率。在处理候选词时,我们进行了一些基本的清理和过滤,但没有排除专有名词和俚语。例如,由于汤姆·索亚的阿姨是波莉姨妈,哈克贝利·芬喜欢说“by jings”,基于马克·吐温作品的Wordle词典将包含单词“polly”和“jings”。

数据用途概述: 该数据集适用于Wordle求解器的训练、文本分析、自然语言处理研究等场景。研究人员可以使用此数据训练Wordle求解器,并评估其在不同作者作品上的表现;可以进行词汇使用频率分析,探索19世纪英语的语言特点;也可以用于教育和娱乐目的,例如生成基于特定作者作品的Wordle游戏。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 131.1 MiB
最后更新 2025年4月27日
创建于 2025年4月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。