找到44个数据集

标签: 语言模型训练

过滤结果
  • 葡萄牙语文本中的性别偏见数据集

    2025年12月22日 30 121 41

    数据集概述 该数据集包含用于研究葡萄牙语文本中性别偏见的相关数据,包括精选的葡萄牙语文学语料库、构建句子模板的词表以及已生成的句子模板文件,为基于掩码语言模型的性别偏见分析提供支持。 文件详解 语料库文件: corpus.zip:压缩文件,包含1804-1998年巴西和欧洲葡萄牙语的592部散文作品,共120万句、1760万词的精选文学语料库...
    packageimg
  • 蛋白质与编码序列整合语言模型数据集

    2025年12月22日 30 97 24

    数据集概述 本数据集围绕蛋白质与编码序列整合以增强语言模型的研究主题构建,包含训练数据、微调模型、多模态数据集及特征嵌入等多类文件,为相关领域的模型训练与分析提供数据支持。 文件详解 根目录文件: source_data.zip: ZIP压缩包,包含项目所有子目录及文件 TE_MRL目录: MRL_dataset.zip:...
    packageimg
  • 突尼斯阿拉伯语拉丁转写语料库2017_2021

    2025年12月21日 30 139 78

    数据集概述 该数据集是2017-2021年构建的突尼斯阿拉伯语(ISO 693-3: aeb)拉丁转写(Arabizi)文本资源,通过网络爬取Facebook公开页面消息,经人工筛选保留纯突尼斯阿拉伯语拉丁转写内容,无标注或调整,用于解决突尼斯阿拉伯语拉丁转写NLP数据库缺失问题。 文件详解 文本文件(.txt格式,共13个):...
    packageimg
  • 乌兹别克语语言描述数据集

    2025年12月14日 30 70 50

    数据集概述 本数据集包含一份关于乌兹别克语语言描述的PDF文档,文档围绕乌兹别克语的词语、短语及其语言学特征展开,为乌兹别克语语言研究提供基础资料。 文件详解 文件名称: Ибрагимова Муқаддас Абдуллаевна.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 加泰罗尼亚政府网页爬取语料库2020

    2025年12月13日 30 131 60

    数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
    packageimg
  • 开罗居民萨尔玛城市声音记录描述与评论的阿拉伯语及法语转录文本20120926

    2025年12月10日 30 42 29

    数据集概述 该数据集包含2012年9月26日,埃及开罗居民萨尔玛对其使用双耳麦克风记录的城市日常旅程声音的描述与评论的转录文本,涵盖原始阿拉伯语版本及法语翻译版本,为研究城市声音感知提供质性数据支持。 文件详解 阿拉伯语转录文件: Arabic transcript of description and comments Salma...
    packageimg
  • 基于Key与Comrie_洲际词典系列_的CLDF数据集2023

    2025年12月8日 30 192 147

    数据集概述 本数据集是基于Key与Comrie主编的《洲际词典系列》转换而来的CLDF格式数据集,收录了语言词典相关数据,为语言比较研究提供结构化数据支持。 文件详解 文件名称:intercontinental-dictionary-series/ids-v4.3.zip 文件格式:.zip(压缩包)...
    packageimg
  • 塞尔维亚小说语料库2021年4月版

    2025年12月4日 30 83 1

    数据集概述 该数据集是2021年4月发布的塞尔维亚小说语料库(ELTeC-srp),包含90部以一级编码标注的小说文本,属于欧洲文学文本集合(ELTeC)的一部分,由COST Action项目推动构建。 文件详解 README.md(Markdown格式):包含语料库版本信息、发布说明、DOI引用链接及项目背景介绍,帮助用户理解数据集的来源与使用规范。...
    packageimg
  • 马来语大规模文本数据集

    2025年6月1日 30 100 95

    马来语大规模文本数据集 数据来源:互联网公开数据 标签:马来语,自然语言处理,语言模型训练,文本数据,机器学习,深度学习,文本清洗 数据概述: 本数据集包含超过600万行独特的马来语文本,数据来源于多个公开数据集并经过清洗处理,确保数据的高质量和可用性。该数据集为研究人员和开发者提供了一个丰富且多样化的文本资源,适用于多种自然语言处理任务。...
    packageimg
  • 合成南非语故事数据集

    2025年6月1日 30 53 42

    合成南非语故事数据集 数据来源:互联网公开数据 标签:合成数据,南非语,儿童故事,道德价值,自然语言处理,文本生成,语言模型训练 数据概述:...
    packageimg
  • 小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集

    2025年5月11日 30 49 10

    小型OpenOrca数据集0-05比例-自然语言处理模型训练数据集 数据来源:互联网公开数据 标签:自然语言处理, 文本生成, 模型训练, GPT-4, GPT-3.5, 语言模型, 文本增强, OpenOrca, 子集 数据概述: 本数据集是原始OpenOrca数据集的一个子集,OpenOrca数据集是一个由增强的FLAN...
    packageimg
  • 大型语言模型训练提示数据集LLMPromptTrainDataDataset-kuohsintu

    2025年5月28日 30 64 28

    大型语言模型训练提示数据集LLMPromptTrainDataDataset-kuohsintu 数据来源:互联网公开数据 标签:大型语言模型,数据集,自然语言处理,机器学习,文本生成,对话系统,人工智能,语言技术 数据概述:该数据集包含用于训练大型语言模型的提示数据,记录了多种类型的对话和文本生成任务的示例。主要特征如下:...
    packageimg
  • 大型语言模型系统LMSYS对话数据集-cosheimil

    2025年5月28日 30 161 17

    大型语言模型系统LMSYS对话数据集-cosheimil 数据来源:互联网公开数据 标签:大型语言模型,对话数据,自然语言处理,机器学习,数据集,文本生成,语言模型训练,人工智能 数据概述: 该数据集由 LMSYS 团队收集整理,包含了大量人机对话和模型生成的文本数据,旨在促进大型语言模型(LLM)的研究和发展。主要特征如下:...
    packageimg
  • 印度自然语言处理资源数据集IndicNLPResourcesDataset-arynamn

    2025年5月12日 30 164 49

    印度自然语言处理资源数据集IndicNLPResourcesDataset-arynamn 数据来源:互联网公开数据 标签:自然语言处理,印度语言,文本分析,数据集,机器学习,语言学,文化研究,多语言处理 数据概述:该数据集包含来自印度多个语言的文本资源,适用于自然语言处理和机器学习任务。主要特征如下:...
    packageimg
  • 阿拉伯语文本完形填空数据集ArabicTextClozeTestDataset-omarelkholy74

    2025年5月16日 30 201 166

    阿拉伯语文本完形填空数据集ArabicTextClozeTestDataset-omarelkholy74 数据来源:互联网公开数据 标签:阿拉伯语, 文本完形填空, 自然语言处理, 机器阅读理解, 语言模型, 文本生成, 数据集, 填空题 数据概述: 该数据集包含来自互联网公开数据的阿拉伯语文本,记录了用于文本完形填空任务的句子对。主要特征如下:...
    packageimg
  • 英语-乌尔都语翻译数据集English-UrduTranslationDataset-cygnusanubis

    2025年4月29日 30 64 5

    英语-乌尔都语翻译数据集English-UrduTranslationDataset-cygnusanubis 数据来源:互联网公开数据 标签:机器翻译, 语言模型, 文本翻译, 英语, 乌尔都语, 自然语言处理, 双语对照, 语料库 数据概述: 该数据集包含英语和乌尔都语的翻译对,记录了英语句子及其对应的乌尔都语翻译。主要特征如下:...
    packageimg
  • 语言生成器合成文本数据集

    2025年4月25日 30 66 19

    语言生成器合成文本数据集 数据来源:互联网公开数据 标签:自然语言处理,文本生成,语言模型训练,合成数据,数据增强,对话模拟,错误注入 数据概述: 本数据集是由Python工具Linguistic...
    packageimg
  • Llama1模型生成第一步数据集Generation1Step1Dataset-thaonguen

    2025年4月25日 30 37 4

    Llama1模型生成第一步数据集Generation1Step1Dataset-thaonguen 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本生成,机器学习,Llama,Transformer,语言模型,预训练 数据概述: 该数据集包含用于 Llama 1 模型第一步训练的数据,主要用于构建基础的语言模型。主要特征如下:...
    packageimg
  • 大型语言模型训练原始数据集LargeLanguageModelTrainingRawDataset-wanfangyuan

    2025年4月25日 30 43 29

    大型语言模型训练原始数据集LargeLanguageModelTrainingRawDataset-wanfangyuan 数据来源:互联网公开数据 标签:自然语言处理,数据集,机器学习,深度学习,人工智能,语言模型,文本数据,模型训练 数据概述: 该数据集包含用于训练大型语言模型的原始文本数据,记录了多种来源的文本内容。主要特征如下:...
    packageimg
  • 英印互译数据集EngHindiDataset-abcdef999

    2025年4月24日 30 8 3

    英印互译数据集EngHindiDataset-abcdef999 数据来源:互联网公开数据 标签:机器翻译,数据集,印地语,英语,自然语言处理,文本数据,跨语言,语言学 数据概述: 该数据集包含了英语和印地语的平行语料,即互译的句子对。主要特征如下: 时间跨度:数据记录的时间范围不限,收录了不同时期,不同来源的文本。...
    packageimg