找到3个数据集

标签: 维基文本

过滤结果
  • 英文维基百科文本数据集

    2025年12月23日 30 105 96

    数据集概述 本数据集包含英文维基百科文本的转储文件,以及相关的测试数据说明文档和压缩工具。数据文件类型多样,涵盖PMD格式文本、压缩包、可执行文件和网页文档,为英文维基百科文本相关的实验或测试提供数据支持。 文件详解 该数据集包含7个文件,具体说明如下: - 文本文件: - enwik8.pmd: PMD格式文件,可能为英文维基百科文本数据 -...
    packageimg
  • 印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07

    2025年5月30日 30 15 8

    印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07 数据来源:互联网公开数据 标签:自然语言处理,语言模型,文本分类,印地语,泰米尔语,数据集,机器学习,多语言处理 数据概述: 该数据集包含来自维基百科的印地语和泰米尔语文本数据,记录了两门语言的维基百科文章内容。主要特征如下:...
    packageimg
  • 维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen

    2025年5月29日 30 28 17

    维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,文本清洗,机器学习,语言模型,信息检索,文本分析 数据概述: 该数据集是维基文本清洗数据集的第二部分,包含了从维基百科中提取和清洗过的文本数据。主要特征如下:...
    packageimg