数据集 - 海数据

哈萨克语新闻文章数据集

2025年4月27日

哈萨克语新闻文章数据集数据来源：互联网公开数据标签：哈萨克语,新闻,文本分类,情感分析,命名实体识别,多语言处理,语言模型数据概述：本数据集收录了从Tengri...

ZIP

语言模型生成文本数据集Alpaca-FLANOutputsDataset-varun500

2025年4月26日

语言模型生成文本数据集Alpaca-FLANOutputsDataset-varun500 数据来源：互联网公开数据标签：自然语言处理，文本生成，数据集，语言模型，机器学习，人工智能，机器翻译，对话系统数据概述：该数据集包含来自Alpaca和FLAN语言模型的生成文本数据，记录了语言模型在多种任务中的文本生成结果。主要特征如下：...

ZIP

大规模语言模型微调数据集Fine-tuningNewDataset-inductiveanks

2025年4月26日

大规模语言模型微调数据集Fine-tuningNewDataset-inductiveanks 数据来源：互联网公开数据标签：自然语言处理，数据集，语言模型，微调，文本生成，机器翻译，问答系统，深度学习数据概述：该数据集包含用于微调大规模语言模型的数据，涵盖了多种自然语言处理任务。主要特征如下：...

ZIP

机器翻译模型数据集TranslationModelDataset-osamaabobakr

2025年4月26日

机器翻译模型数据集TranslationModelDataset-osamaabobakr 数据来源：互联网公开数据标签：机器翻译，数据集，自然语言处理，语言模型，深度学习，人工智能，文本分析，多语言翻译数据概述：该数据集包含来自多个来源的多语言文本数据，用于训练和评估机器翻译模型。主要特征如下：...

ZIP

新闻微调量化ChatGLM2数据集NewsFine-TuneQuantineChatGLM2Dataset-lollipopshen

2025年4月26日

新闻微调量化ChatGLM2数据集NewsFine-TuneQuantineChatGLM2Dataset-lollipopshen 数据来源：互联网公开数据标签：新闻数据，微调数据集，量化模型，自然语言处理，机器学习，文本分析，AI助手，语言模型数据概述：...

ZIP

Quora语句改写数据集QuoraParaphrasingDataset-fbgame123

2025年4月26日

Quora语句改写数据集QuoraParaphrasingDataset-fbgame123 数据来源：互联网公开数据标签：自然语言处理，文本改写，数据集，机器学习，语义相似度，语言模型，文本生成，人工智能数据概述：该数据集来源于Quora平台，包含了用户提问的原始语句及对应的改写版本，用于研究语句改写和语义相似度分析。主要特征如下：...

ZIP

核心ference数据集CoreferenceDataset-mrdbc29

2025年4月26日

核心ference数据集CoreferenceDataset-mrdbc29 数据来源：互联网公开数据标签：自然语言处理，文本分析，数据集，机器学习，语言模型，句法分析，语义理解，人工智能数据概述：该数据集包含来自多个自然语言处理研究项目的文本数据，记录了文本中的核心ference现象。主要特征如下：...

ZIP

日常对话数据集DailyDialogCleanDataset-va6573

2025年4月26日

日常对话数据集DailyDialogCleanDataset-va6573 数据来源：互联网公开数据标签：对话数据，自然语言处理，数据集，情感分析，文本分类，机器学习，语言模型，人机交互数据概述：该数据集包含来自日常对话的文本数据，记录了不同场景下的对话内容。主要特征如下：时间跨度：数据记录的时间范围不明确，主要为日常对话的文本记录。...

ZIP

自然语言处理任务数据集NLPAssignment4Dataset-onkarsawant5613

2025年4月26日

自然语言处理任务数据集NLPAssignment4Dataset-onkarsawant5613 数据来源：互联网公开数据标签：自然语言处理，文本分析，数据集，机器翻译，情感分析，文本分类，深度学习，语言模型数据概述：该数据集包含用于自然语言处理任务的文本数据，涵盖了多种语言和任务类型。主要特征如下：...

ZIP

乌尔都语诗歌解析数据集UrduPoetryExplanationDataset-thee5z

2025年4月26日

乌尔都语诗歌解析数据集UrduPoetryExplanationDataset-thee5z 数据来源：互联网公开数据标签：乌尔都语，诗歌，数据集，文学研究，自然语言处理，文化研究，语言模型，文本分析数据概述：该数据集包含来自乌尔都语诗歌的文本数据，记录了乌尔都语诗歌及其对应的解释和解析。主要特征如下：...

ZIP

在线书籍完整版数据集LibrosCompletosDataset-hykevin2

2025年4月26日

在线书籍完整版数据集LibrosCompletosDataset-hykevin2 数据来源：互联网公开数据标签：书籍，数据集，文本分析，自然语言处理，文学研究，西班牙语，内容挖掘，语言模型数据概述：该数据集包含来自互联网的西班牙语在线书籍完整版数据，涵盖了各种主题和文学体裁。主要特征如下：...

ZIP

测试MisralLLaMA与ChatGPT差异数据集TestMisralLLaMAChatGPTDifferSet-alexeyj

2025年4月26日

测试MisralLLaMA与ChatGPT差异数据集TestMisralLLaMAChatGPTDifferSet-alexeyj 数据来源：互联网公开数据标签：对话系统，语言模型，数据集，自然语言处理，机器学习，人工智能，文本生成，比较分析数据概述：该数据集包含了Misral...

ZIP

点击诱饵标题测试数据集LLMClickbaitTestDataset-datasontran

2025年4月26日

点击诱饵标题测试数据集LLMClickbaitTestDataset-datasontran 数据来源：互联网公开数据标签：点击诱饵，标题生成，数据集，自然语言处理，文本分析，机器学习，语言模型，评估数据概述：该数据集包含用于测试和评估大型语言模型（LLM）生成点击诱饵标题能力的文本数据。主要特征如下：...

ZIP

大型语言模型聊天机器人大赛LMSYSChatbotArena对话数据集LMSYSChatbotArenaConversationsDataset-arpit1bansal

2025年4月26日

大型语言模型聊天机器人大赛LMSYSChatbotArena对话数据集LMSYSChatbotArenaConversationsDataset-arpit1bansal 数据来源：互联网公开数据标签：自然语言处理，对话系统，数据集，机器学习，人工智能，语言模型，交互分析，竞技评估数据概述：该数据集源自LMSYS Chatbot...

ZIP

生成式数据集2000年GenerateDF2000-mandrilator

2025年4月26日

生成式数据集2000年GenerateDF2000-mandrilator 数据来源：互联网公开数据标签：生成数据，数据集，机器学习，自然语言处理，文本生成，人工智能，数据科学，语言模型数据概述：该数据集包含来自互联网的多样化文本数据，主要记录了2000年期间的文本信息，适用于生成式模型的训练和文本生成任务。主要特征如下：...

ZIP

罗马数字到印地语转换数据集-dushyantsingh1

2025年4月26日

罗马数字到印地语转换数据集-dushyantsingh1 数据来源：互联网公开数据标签：自然语言处理，机器翻译，数据集，印地语，罗马数字，文本转换，语言模型，印度文化数据概述：该数据集包含了罗马数字和对应的印地语数字的转换对，旨在促进罗马数字到印地语数字的自动转换。主要特征如下：时间跨度：数据涵盖了现代罗马数字和印地语数字的表示。...

ZIP

印地语验证标记数据集HindiValidationTokensDataset-pranav51286

2025年4月26日

印地语验证标记数据集HindiValidationTokensDataset-pranav51286 数据来源：互联网公开数据标签：自然语言处理，印地语，标记化，数据集，语言模型，机器学习，文本处理，多语言数据概述：该数据集包含来自印地语语料库的验证标记数据，主要用于语言模型训练和评估。主要特征如下：...

ZIP

中国古典诗歌文本数据集Tibamemlnlp-poemDataset-smallstone2022

2025年4月26日

中国古典诗歌文本数据集Tibamemlnlp-poemDataset-smallstone2022 数据来源：互联网公开数据标签：古典文学，诗歌，数据集，文本分析，自然语言处理，机器学习，文化研究，语言模型数据概述：该数据集包含来自中国古典诗歌的文本数据，记录了历代著名诗人的诗歌作品及其相关信息。主要特征如下：...

ZIP

自然语言处理NLP领域数据集one-nlpDataset-dogruzvelta

2025年4月26日

自然语言处理NLP领域数据集one-nlpDataset-dogruzvelta 数据来源：互联网公开数据标签：自然语言处理，NLP，数据集，文本分析，机器学习，模型训练，语言模型，情感分析数据概述：该数据集包含来自NLP领域的多样化文本数据，旨在支持各种NLP任务，如文本分类，情感分析，机器翻译等。主要特征如下：...

ZIP

EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92

2025年4月26日

EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92 数据来源：互联网公开数据标签：自然语言处理，预训练，数据集，文本嵌入，深度学习，语言模型，机器翻译，文本生成数据概述：该数据集是EEDI项目用于预训练的最终混合数据集，包含了多种来源的文本数据，旨在提升语言模型的性能。主要特征如下：...

ZIP

找到755个数据集

注册成功！