-
英文维基百科文本数据集
2025年12月23日 30 105 96
数据集概述 本数据集包含英文维基百科文本的转储文件,以及相关的测试数据说明文档和压缩工具。数据文件类型多样,涵盖PMD格式文本、压缩包、可执行文件和网页文档,为英文维基百科文本相关的实验或测试提供数据支持。 文件详解 该数据集包含7个文件,具体说明如下: - 文本文件: - enwik8.pmd: PMD格式文件,可能为英文维基百科文本数据 -...
-
印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07
2025年5月30日 30 15 8
印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07 数据来源:互联网公开数据 标签:自然语言处理,语言模型,文本分类,印地语,泰米尔语,数据集,机器学习,多语言处理 数据概述: 该数据集包含来自维基百科的印地语和泰米尔语文本数据,记录了两门语言的维基百科文章内容。主要特征如下:...
-
维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen
2025年5月29日 30 28 17
维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,文本清洗,机器学习,语言模型,信息检索,文本分析 数据概述: 该数据集是维基文本清洗数据集的第二部分,包含了从维基百科中提取和清洗过的文本数据。主要特征如下:...



