找到730个数据集

标签: 语言模型

过滤结果
  • 越南语文本语料库构建与分析数据集VietnameseTextCorpusConstructionandAnalysis-dinhnhattruong

    2025年5月30日   

    越南语文本语料库构建与分析数据集VietnameseTextCorpusConstructionandAnalysis-dinhnhattruong 数据来源:互联网公开数据 标签:越南语, 文本语料库, 文本分析, 自然语言处理, 语料库构建, 文本摘要, 词嵌入, 语言模型 数据概述:...
    packageimg
  • 预训练语言模型掩码任务训练数据集Pre-trainedLanguageModelMaskedLanguageModelingDataset-yuzhoudiyishuai

    2025年5月30日   

    预训练语言模型掩码任务训练数据集Pre-trainedLanguageModelMaskedLanguageModelingDataset-yuzhoudiyishuai 数据来源:互联网公开数据 标签:自然语言处理, 预训练, 语言模型, 掩码语言模型, 文本数据, 深度学习, 文本生成, 数据集构建 数据概述:...
    packageimg
  • 僧伽罗语文本纠错数据集SinhalaTextCorrectionDataset-uom200199t

    2025年5月30日   

    僧伽罗语文本纠错数据集SinhalaTextCorrectionDataset-uom200199t 数据来源:互联网公开数据 标签:文本纠错, 僧伽罗语, 自然语言处理, 语言模型, 深度学习, 数据集, 文本校对, 机器学习 数据概述:...
    packageimg
  • Gemma模型重写数据集RewrittenGemma-7bDataset-patrickjchen

    2025年5月30日   

    Gemma模型重写数据集RewrittenGemma-7bDataset-patrickjchen 数据来源:互联网公开数据 标签:自然语言处理,机器学习,深度学习,文本生成,语言模型,模型重写,人工智能,大语言模型 数据概述: 该数据集包含对Gemma-7b语言模型的输出进行重写的数据,记录了原始文本和经过模型重写后的文本。主要特征如下:...
    packageimg
  • 问答平台相似问题配对数据集QuoraPairsDataset-develina

    2025年5月30日   

    问答平台相似问题配对数据集QuoraPairsDataset-develina 数据来源:互联网公开数据 标签:自然语言处理,问答系统,数据集,文本相似度,机器学习,数据挖掘,人工智能,语言模型 数据概述: 该数据集来源于问答平台Quora,包含了大量用户提交的问题对,用于判断问题是否相似或重复。主要特征如下:...
    packageimg
  • 自然语言处理聊天机器人数据集NLPChatbotData-shekhartiruwa25

    2025年5月30日   

    自然语言处理聊天机器人数据集NLPChatbotData-shekhartiruwa25 数据来源:互联网公开数据 标签:自然语言处理,聊天机器人,数据集,对话系统,机器学习,文本分析,人工智能,语言模型 数据概述: 该数据集包含来自公开来源的自然语言处理聊天机器人对话数据,记录了用户与聊天机器人的交互内容。主要特征如下:...
    packageimg
  • 英法翻译数据集English-to-FrenchTranslationDataset-othmansamih

    2025年5月30日   

    英法翻译数据集English-to-FrenchTranslationDataset-othmansamih 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,数据集,英法翻译,语言模型,文本数据,深度学习,翻译模型 数据概述: 该数据集包含英语到法语的翻译文本数据,旨在用于机器翻译模型的训练和评估。主要特征如下:...
    packageimg
  • 语言模型系统大规模数据集LMSys72KDataset-qinhaoyang

    2025年5月30日   

    语言模型系统大规模数据集LMSys72KDataset-qinhaoyang 数据来源:互联网公开数据 标签:语言模型,自然语言处理,数据集,机器学习,文本分析,人工智能,大数据,文本生成 数据概述: 该数据集由LMSys项目提供,包含大规模的文本数据,适用于语言模型训练、自然语言处理及文本生成等任务。主要特征如下:...
    packageimg
  • 文本分析与自然语言处理数据集TextAnalysisandNLPDataset-jayjinnie

    2025年5月30日   

    文本分析与自然语言处理数据集TextAnalysisandNLPDataset-jayjinnie 数据来源:互联网公开数据 标签:文本分析,自然语言处理,数据集,机器学习,情感分析,文本分类,语言模型,信息提取 数据概述: 该数据集包含来自多个来源的文本数据,记录了各类文本内容及其相关属性。主要特征如下:...
    packageimg
  • 故事数据集StoryDataset-ahmadrezacuet

    2025年5月30日   

    故事数据集StoryDataset-ahmadrezacuet 数据来源:互联网公开数据 标签:故事,文本数据,自然语言处理,情感分析,叙事分析,数据集,机器学习,语言模型 数据概述: 该数据集包含大量故事文本,涵盖多种主题和风格。主要特征如下: 时间跨度:数据的时间跨度取决于故事的创作时间,从古代神话传说到现代小说均有收录。...
    packageimg
  • 英语到印地语翻译数据集English-to-HindiTranslateDataset-saediscrazy

    2025年5月30日   

    英语到印地语翻译数据集English-to-HindiTranslateDataset-saediscrazy 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,数据集,印地语,英语,文本翻译,语言模型,多语言 数据概述: 该数据集包含英语到印地语的翻译文本对,旨在用于机器翻译模型的训练和评估。主要特征如下: 时间跨度:...
    packageimg
  • 维基百科摘要数据集Wiki-SumDataset-sandeep16064

    2025年5月30日   

    维基百科摘要数据集Wiki-SumDataset-sandeep16064 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,数据集,机器学习,信息检索,文本分析,知识图谱,语言模型 数据概述: 该数据集包含来自维基百科的文本及对应的摘要数据,记录了维基百科条目的详细内容和自动生成的摘要信息。主要特征如下:...
    packageimg
  • 语言模型多轮对话质量评估数据集LanguageModelMulti-turnDialogueQualityEvaluation-mbaiornommbaihodji

    2025年5月30日   

    语言模型多轮对话质量评估数据集LanguageModelMulti-turnDialogueQualityEvaluation-mbaiornommbaihodji 数据来源:互联网公开数据 标签:多轮对话, 语言模型, 对话质量, 文本生成, 语义理解, 评估, 机器学习, 自然语言处理 数据概述:...
    packageimg
  • 人类文本数据集HumanTextDataset-errordebug

    2025年5月30日   

    人类文本数据集HumanTextDataset-errordebug 数据来源:互联网公开数据 标签:文本数据,自然语言处理,数据集,机器学习,情感分析,文本分类,语言模型,人工智能 数据概述: 该数据集包含来自互联网公开渠道的人类生成文本数据,记录了各类文本内容的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从近年到现代。...
    packageimg
  • 多语言用户反馈数据集UltraFeedbackMultilingualDatasetfromHuggingFace-arman1611

    2025年5月30日   

    多语言用户反馈数据集UltraFeedbackMultilingualDatasetfromHuggingFace-arman1611 数据来源:互联网公开数据 标签:用户反馈,多语言数据集,自然语言处理,机器学习,情感分析,文本分类,数据增强,语言模型 数据概述: 该数据集来自Hugging...
    packageimg
  • 科学考试输入数据数据集-kashiwaba

    2025年5月30日   

    科学考试输入数据数据集-kashiwaba 数据来源:互联网公开数据 标签:科学考试,数据集,自然语言处理,文本分析,机器学习,教育,语言模型,考试评估 数据概述:该数据集包含用于科学考试的输入数据,主要记录了各种科学考试题目、学生答案以及相关评估信息。主要特征如下: 时间跨度:数据记录的时间范围涵盖了不同年份的科学考试题目。...
    packageimg
  • 文本生成与欺骗检测论文写作数据集TextGenerationandDeceptionDetectionEssayDataset-laurensprast

    2025年5月30日   

    文本生成与欺骗检测论文写作数据集TextGenerationandDeceptionDetectionEssayDataset-laurensprast 数据来源:互联网公开数据 标签:文本生成, 欺骗检测, 论文写作, 语言模型, 自然语言处理, 文本分类, 机器学习, 数据标注 数据概述:...
    packageimg
  • 文本错别字检测与纠正数据集Typo-IntroDataset-chasembowers

    2025年5月30日   

    文本错别字检测与纠正数据集Typo-IntroDataset-chasembowers 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,错别字检测,机器学习,语言模型,文本纠错,人工智能 数据概述: 该数据集专注于文本中的错别字检测与纠正,记录了大量包含错别字的文本样本及其对应的正确文本。主要特征如下:...
    packageimg
  • 新闻摘要生成数据集XLSumCSVDataset-phoenixdev

    2025年5月30日   

    新闻摘要生成数据集XLSumCSVDataset-phoenixdev 数据来源:互联网公开数据 标签:新闻摘要,数据集,自然语言处理,文本生成,机器学习,信息提取,人工智能,语言模型 数据概述: 该数据集包含来自多个新闻来源的新闻摘要数据,记录了新闻文章及其对应的摘要信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2021年。...
    packageimg
  • 印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07

    2025年5月30日   

    印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07 数据来源:互联网公开数据 标签:自然语言处理,语言模型,文本分类,印地语,泰米尔语,数据集,机器学习,多语言处理 数据概述: 该数据集包含来自维基百科的印地语和泰米尔语文本数据,记录了两门语言的维基百科文章内容。主要特征如下:...
    packageimg