数据集

古登堡文学作品样本数据集18本书1963-2021

古登堡文学作品样本数据集18本书1963-2021 数据来源：互联网公开数据标签：古登堡项目,文学作品,文本样本,分类任务,自然语言处理,经典文学,样本清理数据概述：本数据集包含来自古登堡项目的18本书的样本文本，涵盖了从简·奥斯汀到惠特曼等多位著名作家的作品。每本书的文件名由作者名和书名组成，共提供了9994个样本，每个样本包含200个单词。这些文本样本为自然语言处理和文学研究提供了丰富的资源。数据用途概述：该数据集适用于文本分类任务，机器学习模型可利用这些样本进行训练和测试。此外，数据集也适合用于自然语言处理研究、文学分析以及经典文学的数字化研究。在使用前，数据需要经过一定的清理以去除噪声和无关信息。举例：数据集中包含了简·奥斯汀的《傲慢与偏见》、《劝导》和《理智与情感》，以及莎士比亚的《凯撒》、《哈姆雷特》和《麦克白》等经典作品的部分文本样本。每个样本由200个单词组成，适合用于训练文本分类模型。

数据与资源

古登堡文学作品样本数据集18本书1963-2021.zipZIP
4.65 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	4.65 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

古登堡文学作品样本数据集18本书1963-2021

数据与资源

附加信息

注册成功！