数据集

数据19世纪作家Wordle词汇数据集

数据19世纪作家Wordle词汇数据集数据来源：互联网公开数据标签：Wordle, 词汇, 19世纪, 文学, 作者, 文本分析, 自然语言处理, 项目古腾堡

数据概述：本数据集基于从项目古腾堡（Project Gutenberg）下载的公有领域书籍构建。数据集选取标准如下：书籍收录于项目古腾堡目录；版权已过期，属于公有领域；书籍以英文撰写；书籍提供简单的文本格式下载；书籍由单一作者创作；作者至少部分生活在19世纪。

数据集旨在探索使用不同作者作品训练的Wordle求解器在不同作者作品上的表现。例如，一个基于马克·吐温作品训练的Wordle求解器，在面对赫尔曼·梅尔维尔更为华丽的风格时，是否会遇到困难？

为此，我们构建了该数据集。从项目古腾堡下载符合上述标准的所有书籍后，我们为每本书编译了一个Wordle词典，提取5个字母的单词，并记录单词的使用频率。在处理候选词时，我们进行了一些基本的清理和过滤，但没有排除专有名词和俚语。例如，由于汤姆·索亚的阿姨是波莉姨妈，哈克贝利·芬喜欢说“by jings”，基于马克·吐温作品的Wordle词典将包含单词“polly”和“jings”。

数据用途概述：该数据集适用于Wordle求解器的训练、文本分析、自然语言处理研究等场景。研究人员可以使用此数据训练Wordle求解器，并评估其在不同作者作品上的表现；可以进行词汇使用频率分析，探索19世纪英语的语言特点；也可以用于教育和娱乐目的，例如生成基于特定作者作品的Wordle游戏。

数据与资源

数据19世纪作家Wordle词汇数据集.zipZIP
131.10 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	131.1 MiB
最后更新	2025年4月27日
创建于	2025年4月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

数据19世纪作家Wordle词汇数据集

数据与资源

附加信息

注册成功！