找到21个数据集

标签: 文本资源

过滤结果
  • dsfsi_Based非洲语言新闻语料库2022

    2026年2月1日 30 180 157

    数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
    packageimg
  • ELTeC_gsw_Based_瑞士德语小说集_公开数据集

    2026年1月30日 30 106 30

    数据集概述 本数据集是欧洲文学文本集合(ELTeC)的瑞士德语小说子集,由COST Action "Distant Reading for European Literary History"项目生成,包含100部符合语料库构成标准的瑞士德语小说,采用TEI编码,支持欧洲文学远程阅读研究,总计102个文件。 文件详解 核心数据文件...
    packageimg
  • NCOMMS_25_07426_Based_文档数据_无时间

    2026年1月29日 30 111 70

    数据集概述 本数据集包含一个与NCOMMS-25-07426相关的Word文档,无额外描述信息。数据集结构简单,仅含单个文档文件,未检测到命名模式、训练测试/数据标签/原始处理等数据划分。 文件详解 文件名称:Word 文档.docx 文件格式:.docx 字段映射介绍:未提供文件内容预览,无法获取具体字段信息,仅可确认文件类型为Word文档。...
    packageimg
  • ELTeC_ukr_Based_乌克兰小说语料库2021年4月发布数据

    2026年1月23日 30 138 109

    数据集概述 本数据集为ELTeC-ukr乌克兰小说语料库2021年4月发布版本,包含50部编码为1级的乌克兰小说。数据集共2个文件,无目录结构,主要文件类型为压缩包和说明文档,用于支持欧洲文学远程阅读研究。 文件详解 文件名称:README.md 文件格式:MD 字段映射介绍:包含语料库基本信息、贡献者列表、项目背景(COST Action...
    packageimg
  • generated_texts_Based_生物基因NLP微调模型评估数据

    2026年1月21日 30 58 6

    数据集概述 本数据集包含用于模型评估的微调模型生成文本,核心围绕生物基因领域的NLP文本生成任务。数据集仅含1个JSON格式文件,无训练/测试、数据/标签或原始/处理数据划分,无目录层级结构,是生物基因NLP模型评估的专用文本资源。 文件详解 文件名称:generated_texts.json 文件格式:JSON...
    packageimg
  • IN02061_Sanskrit_Epidoc草案_Balambu铭文梵语文本数据

    2026年1月18日 30 112 87

    数据集概述 本数据集为IN02061 Balambu铭文的梵语XML文件,是待纳入“Siddham”档案的Epidoc格式草案版本,不含元数据。数据集仅包含一个XML文件,用于记录和分析该铭文的梵语文本内容,为考古与梵语研究提供结构化文本资源。 文件详解 文件名称:IN02061.xml 文件格式:XML...
    packageimg
  • IN01053_Sanskrit_XML_Mrgesavarman_Halsi_Grant梵语铭文文件

    2026年1月3日 30 103 1

    数据集概述 本数据集包含IN01053号Mrgesavarman的Halsi Grant梵语铭文的XML文件,无元数据。数据集仅含一个文件,无目录层级,文件类型单一为XML格式,未划分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:IN01053.xml 文件格式:XML 字段映射介绍:包含Mrgesavarman的Halsi...
    packageimg
  • 哥廷根印度语言电子文本注册中心不二论数据集

    2025年12月23日 30 13 12

    数据集概述 该数据集为哥廷根印度语言电子文本注册中心(GRETIL)收录的不二论(ADVAITA)相关电子文本,包含3个HTML格式文件,聚焦印度语言中的不二论主题文本资源。 文件详解 文件名称: moksop_u.htm、motik_au.htm、motik_pu.htm 文件格式: HTML(.htm) 内容说明:...
    packageimg
  • 哥廷根印度语言电子文本注册吠陀数据集

    2025年12月23日 30 139 80

    数据集概述 本数据集是哥廷根印度语言电子文本注册(GRETIL)中关于吠陀(VEDA)的电子文本集合,包含37个HTML格式文件,主要为吠陀相关文本内容,未划分训练测试集、数据标签或原始/处理数据,为印度语言及吠陀文本研究提供基础资料。 文件详解 该数据集包含37个HTML格式文件,具体说明如下: - 文件类型: 所有文件均为.htm格式,占比100%...
    packageimg
  • 全球生态问题文献

    2025年12月22日 30 36 9

    数据集概述 本数据集包含一份关于全球生态问题的文献资料,以PDF格式呈现,聚焦生态领域的相关议题,为研究全球生态问题提供参考性文本资源。 文件详解 文件名称: Raxmatova Muxayyo.pdf 文件格式: PDF (.pdf) 文件内容: 文档文件,推测为关于全球生态问题的研究文献或相关资料 适用场景 生态学研究:...
    packageimg
  • IN02061_Balambu_Based_铭文翻译标准化完整数据

    2025年12月21日 30 81 30

    数据集概述 本数据集包含IN02061 Balambu Dhakasitol铭文的翻译文档,以两种格式呈现,为铭文内容的查阅与研究提供文本支持。 文件详解 IN02061 CII Balambu Dhakasitol Inscription.docx:Word文档格式,包含Balambu铭文的翻译文本内容 IN02061 CII Balambu...
    packageimg
  • 突尼斯阿拉伯语拉丁转写语料库2017_2021

    2025年12月21日 30 19 14

    数据集概述 该数据集是2017-2021年构建的突尼斯阿拉伯语(ISO 693-3: aeb)拉丁转写(Arabizi)文本资源,通过网络爬取Facebook公开页面消息,经人工筛选保留纯突尼斯阿拉伯语拉丁转写内容,无标注或调整,用于解决突尼斯阿拉伯语拉丁转写NLP数据库缺失问题。 文件详解 文本文件(.txt格式,共13个):...
    packageimg
  • 哥廷根印度语言电子文本注册中心耆那教文献数据集

    2025年12月21日 30 199 104

    数据集概述 本数据集是哥廷根印度语言电子文本注册中心(GRETIL)收录的耆那教文献集合,包含三篇以.htm格式存储的电子文本文件,为耆那教文献研究提供了电子化资源。 文件详解 文件名称: hsasvriu.htm、hsasvrpu.htm、hsasvrau.htm 文件格式: HTML (.htm),共3个文件,占比百分之百 内容说明:...
    packageimg
  • 哥廷根印度语言电子文本登记册_胜论派文献数据集

    2025年12月13日 30 155 6

    数据集概述 该数据集是哥廷根印度语言电子文本登记册(GRETIL)的一部分,聚焦于印度胜论派(VAIŚEṢIKA)相关文献,包含4个HTML格式文件,提供胜论派哲学文本的电子资源。 文件详解 数据集包含4个HTML格式文件,具体如下: - 文件名称:paddhs_u.htm、vaisessu.htm、vaissu1u.htm、vvmanmhu.htm...
    packageimg
  • IN02070_Yampibahi_Based_水管道铭文翻译完整数据_说明_1_主题_时间_保留核心锚点IN02070_Yampibahi_补充_水管道...

    2025年12月15日 0 67 28

    数据集概述 本数据集包含IN02070 Yampibahi铭文的翻译文档,涉及水管道相关内容。数据集由两个文件组成,涵盖Word文档和PDF两种格式,为研究该铭文的内容和历史背景提供基础资料。 文件详解 文件名称:IN02070 CXV Yampibahi water conduit Inscription.docx 文件格式:DOCX...
    packageimg
  • 哥廷根印度语言电子文本注册库ARTHA数据集

    2025年12月14日 30 144 137

    数据集概述 本数据集是哥廷根印度语言电子文本注册库(GRETIL)的一部分,聚焦于印度语言电子文本资源,包含一个HTML格式的文本文件,为研究印度语言文本提供基础数据支持。 文件详解 文件名称: kautil_u.htm 文件格式: HTML (.htm) 内容说明:...
    packageimg
  • IN02092_Bahilitole_Patan_Based_铭文2译文多格式数据资源包

    2025年12月14日 30 148 127

    数据集概述 该数据集包含IN02092 Bahilitole Patan铭文2的译文资料,涵盖PDF和DOCX两种格式的文档文件,为研究该铭文内容提供文本资源。 文件详解 文件名称:IN02092 CLIII Bhogvananhitol.pdf 文件格式:PDF 内容说明:铭文2的译文文档,以PDF格式存储 文件名称:IN02092 CLIII...
    packageimg
  • 情感表达短语单位类型构建数据集

    2025年12月13日 30 158 28

    数据集概述 本数据集包含一份关于情感表达短语单位类型构建的文档,聚焦于情感类短语单位的类型学研究,为相关语言学分析提供资料支持。 文件详解 文件名称: Azimbayeva D.A..pdf 文件格式: PDF (.pdf) 文件内容: 文档围绕情感表达短语单位的类型构建展开,具体内容需查看PDF原文获取 适用场景...
    packageimg
  • 哥廷根印度语言电子文本注册库_达摩经文集

    2025年12月11日 30 206 104

    数据集概述 该数据集是哥廷根印度语言电子文本注册库(GRETIL)中的达摩经文(DHARMA SŪTRA)文本集合,包含六部以.htm格式存储的印度语言电子文本,为研究印度传统达摩经文提供原始文本资源。 文件详解 核心文本文件(共6个,均为.htm格式): gautdh_u.htm:达摩经文相关电子文本 vaikhd_u.htm:达摩经文相关电子文本...
    packageimg
  • 罗马碑铭数据库EDR的EpiDoc格式转换文件

    2025年12月8日 30 57 53

    数据集概述 本数据集是将罗马碑铭数据库(EDR)的部分内容自动转换为EpiDoc格式后的结果,包含多份按编号范围划分的压缩文件,为碑铭研究提供标准化的数字文本资源。 文件详解 压缩文件集(共7个,均为ZIP格式): 025001-050000.zip:包含编号25001至50000的碑铭数据...
    packageimg