古登堡文学作品样本数据集18本书1963-2021

古登堡文学作品样本数据集18本书1963-2021 数据来源:互联网公开数据 标签:古登堡项目,文学作品,文本样本,分类任务,自然语言处理,经典文学,样本清理 数据概述: 本数据集包含来自古登堡项目的18本书的样本文本,涵盖了从简·奥斯汀到惠特曼等多位著名作家的作品。每本书的文件名由作者名和书名组成,共提供了9994个样本,每个样本包含200个单词。这些文本样本为自然语言处理和文学研究提供了丰富的资源。 数据用途概述: 该数据集适用于文本分类任务,机器学习模型可利用这些样本进行训练和测试。此外,数据集也适合用于自然语言处理研究、文学分析以及经典文学的数字化研究。在使用前,数据需要经过一定的清理以去除噪声和无关信息。 举例: 数据集中包含了简·奥斯汀的《傲慢与偏见》、《劝导》和《理智与情感》,以及莎士比亚的《凯撒》、《哈姆雷特》和《麦克白》等经典作品的部分文本样本。每个样本由200个单词组成,适合用于训练文本分类模型。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.65 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。