找到11个数据集

标签: 语言模型训练

过滤结果
  • 马来语大规模文本数据集

    2025年6月1日 30 110 15

    马来语大规模文本数据集 数据来源:互联网公开数据 标签:马来语,自然语言处理,语言模型训练,文本数据,机器学习,深度学习,文本清洗 数据概述: 本数据集包含超过600万行独特的马来语文本,数据来源于多个公开数据集并经过清洗处理,确保数据的高质量和可用性。该数据集为研究人员和开发者提供了一个丰富且多样化的文本资源,适用于多种自然语言处理任务。...
    packageimg
  • 合成南非语故事数据集

    2025年6月1日 30 117 15

    合成南非语故事数据集 数据来源:互联网公开数据 标签:合成数据,南非语,儿童故事,道德价值,自然语言处理,文本生成,语言模型训练 数据概述:...
    packageimg
  • 大型语言模型系统LMSYS对话数据集-cosheimil

    2025年5月28日 30 28 14

    大型语言模型系统LMSYS对话数据集-cosheimil 数据来源:互联网公开数据 标签:大型语言模型,对话数据,自然语言处理,机器学习,数据集,文本生成,语言模型训练,人工智能 数据概述: 该数据集由 LMSYS 团队收集整理,包含了大量人机对话和模型生成的文本数据,旨在促进大型语言模型(LLM)的研究和发展。主要特征如下:...
    packageimg
  • 语言生成器合成文本数据集

    2025年4月25日 30 203 93

    语言生成器合成文本数据集 数据来源:互联网公开数据 标签:自然语言处理,文本生成,语言模型训练,合成数据,数据增强,对话模拟,错误注入 数据概述: 本数据集是由Python工具Linguistic...
    packageimg
  • 大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl

    2025年4月24日 30 146 40

    大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl 数据来源:互联网公开数据 标签:自然语言处理,文本分割,数据集,大规模语言模型,文本处理,机器学习,数据增强,语言模型训练 数据概述: 该数据集包含用于评估和改进大规模语言模型(LLM)生成文本分割能力的数据。主要特征如下:...
    packageimg
  • Open-Assistant多轮对话波斯语翻译数据集

    2025年4月22日 30 81 80

    Open-Assistant多轮对话波斯语翻译数据集 数据来源:互联网公开数据 数据集简介: 本数据集为 Open-Assistant...
    packageimg
  • 大型语言模型训练数据文法修正数据集-syoh0708

    2025年4月22日 30 17 4

    大型语言模型训练数据文法修正数据集-syoh0708 数据来源:互联网公开数据 标签:大型语言模型,文本数据,文法修正,自然语言处理,语言模型训练,文本处理 数据概述: 本数据集包含了两个经过文法修正的大型语言模型(LLM)训练数据集。 数据集一源自Kaggle上的“DAIGT Proper Train...
    packageimg
  • 墨西哥总统安德烈斯-曼努埃尔-洛佩兹-奥布拉多演讲数据集

    2025年4月18日 30 37 21

    墨西哥总统安德烈斯-曼努埃尔-洛佩兹-奥布拉多演讲数据集 数据来源:互联网公开数据 标签:墨西哥总统,演讲文本,政府政策,政治分析,自然语言处理,文本挖掘,语言模型训练 数据概述: 本数据集包含墨西哥总统安德烈斯·曼努埃尔·洛佩兹·奥布拉多在其任期内公开演讲的语料库。数据来源于墨西哥政府官方 YouTube 频道中所有与本届总统任期相关的...
    packageimg
  • IWSLT2017英语-中文翻译数据集

    2025年4月15日 30 113 8

    IWSLT2017英语-中文翻译数据集 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,NLP,多语种,英中翻译,语言模型训练,语料库 数据概述 本数据集是IWSLT2017翻译任务的英语-中文平行语料数据集,主要用于机器翻译研究和多语言自然语言处理任务。数据集包含三个独立的CSV文件,分别存储训练集、验证集和测试集。数据来源于Hugging...
    packageimg
  • 阿拉伯语指令与响应文化相关性研究数据集

    2025年4月15日 30 7 2

    阿拉伯语指令与响应文化相关性研究数据集 数据来源:互联网公开数据 标签:阿拉伯语指令,文化相关性,语言模型训练,自然语言处理,跨文化研究,人工智能,机器学习 数据概述:...
    packageimg
  • 大型表格总结数据集

    2025年4月14日 30 110 7

    大型表格总结数据集 数据来源:互联网公开数据 标签:表格数据,总结任务,自然语言处理,语言模型训练,复杂数据解析,数据压缩,信息抽取 数据概述:...
    packageimg