找到730个数据集

标签: 语言模型

过滤结果
  • Python自然语言处理实践数据集-ndrianahani

    2025年4月24日   

    Python自然语言处理实践数据集-ndrianahani 数据来源:互联网公开数据 标签:自然语言处理,NLP,文本分析,数据集,Python,机器学习,语言模型,文本挖掘 数据概述: 该数据集包含用于Python自然语言处理实践的文本数据,涵盖了多种NLP任务和应用场景。主要特征如下: 时间跨度: 数据记录的时间范围不限,数据集内容持续更新。...
    packageimg
  • 测试训练上下文大型语言模型数据集-quctngngvng

    2025年4月24日   

    测试训练上下文大型语言模型数据集-quctngngvng 数据来源:互联网公开数据 标签:大型语言模型,数据集,自然语言处理,文本生成,机器学习,模型训练,语言模型,上下文学习 数据概述: 该数据集包含用于训练和评估大型语言模型(LLM)的文本数据,专注于测试训练(Test-Train)场景下的上下文学习能力。主要特征如下: 时间跨度:...
    packageimg
  • 数据科学问答LLM微调数据集DataScienceQ-ALLMFine-TuningDataset-divyangmandal

    2025年4月24日   

    数据科学问答LLM微调数据集DataScienceQ-ALLMFine-TuningDataset-divyangmandal 数据来源:互联网公开数据 标签:数据科学,问答系统,微调,机器学习,自然语言处理,数据集,人工智能,语言模型...
    packageimg
  • 大规模文本生成与校对数据集BYT5-CorrectedDataset-jakir57

    2025年4月24日   

    大规模文本生成与校对数据集BYT5-CorrectedDataset-jakir57 数据来源:互联网公开数据 标签:自然语言处理,文本生成,文本校对,数据集,机器翻译,语言模型,文本纠错,人工智能 数据概述: 该数据集基于 Google 的大型语言模型 T5,记录了大规模文本生成和校对的数据。主要特征如下:...
    packageimg
  • 自然语言推理数据集MNLI数据集-nlgluong

    2025年4月24日   

    自然语言推理数据集MNLI数据集-nlgluong 数据来源:互联网公开数据 标签:自然语言处理,数据集,机器学习,文本分析,推理,语言模型,学术研究,深度学习 数据概述: 该数据集包含来自多领域来源的语料库,主要用于自然语言推理任务的研究。主要特征如下: 时间跨度:数据记录的时间范围从2017年到2018年。...
    packageimg
  • 维基百科句子数据集WikiSentencesDataset-sgedela

    2025年4月24日   

    维基百科句子数据集WikiSentencesDataset-sgedela 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,句子,语言模型,文本分析,机器学习,语料库 数据概述:该数据集包含来自维基百科的句子数据,旨在为自然语言处理任务提供高质量的文本语料库。主要特征如下:...
    packageimg
  • 大型语言模型生成文本检测数据集-Llama70B与Falcon180B对抗文本数据集-nbroad

    2025年4月24日   

    大型语言模型生成文本检测数据集-Llama70B与Falcon180B对抗文本数据集-nbroad 数据来源:互联网公开数据 标签:人工智能,自然语言处理,文本生成,机器学习,模型评估,语言模型,Llama 70B, Falcon 180B,文本检测,DAIGT,对抗样本 数据概述:...
    packageimg
  • 机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh

    2025年4月24日   

    机器学习与问答系统MLQA印地语预处理数据集MLQAHindiProcessedDataset-rhtsingh 数据来源:互联网公开数据 标签:机器学习,问答系统,印地语,数据集,自然语言处理,文本预处理,多语言处理,语言模型 数据概述: 该数据集包含来自机器学习与问答系统(MLQA)项目的印地语数据,记录了经过预处理的印地语文本内容。主要特征如下:...
    packageimg
  • 词语类比测试数据集-julianschelb

    2025年4月24日   

    词语类比测试数据集-julianschelb 数据来源:互联网公开数据 标签:自然语言处理,词向量,类比,语义,语言模型,测试集,词汇,认知 数据概述:...
    packageimg
  • BBC新闻自然语言处理数据集BBCNewsNLPDataset-weslatimarwen

    2025年4月24日   

    BBC新闻自然语言处理数据集BBCNewsNLPDataset-weslatimarwen 数据来源:互联网公开数据 标签:新闻分析,自然语言处理,数据集,文本分类,机器学习,信息提取,语言模型,数据挖掘 数据概述: 该数据集包含来自BBC新闻的文本数据,记录了新闻文章的标题,内容,分类标签等信息。主要特征如下:...
    packageimg
  • 文本重写训练与测试数据集ParaphraserTrainingandTestSet-pravinkumardurairaj

    2025年4月24日   

    文本重写训练与测试数据集ParaphraserTrainingandTestSet-pravinkumardurairaj 数据来源:互联网公开数据 标签:自然语言处理,文本重写,数据集,机器学习,文本生成,语言模型,深度学习,数据科学 数据概述: 该数据集包含用于训练和测试文本重写模型的平行文本数据,记录了原始文本及其对应的重写版本。主要特征如下:...
    packageimg
  • 泰米尔语科学知识精调数据集-mohammedsaajid

    2025年4月24日   

    泰米尔语科学知识精调数据集-mohammedsaajid 数据来源:互联网公开数据 标签:泰米尔语,科学,知识,精调,机器学习,物理,化学,生物,天文,语言模型 数据概述: 本数据集专为在泰米尔语环境下微调大型语言模型而设计,重点关注科学知识。数据集涵盖广泛的科学主题,包括物理、化学、生物学、天文学和通识科学,确保了对基础概念的全面覆盖。 关键特征:...
    packageimg
  • 英法翻译数据集English-FrenchTranslationDataset-endofnight17j03

    2025年4月24日   

    英法翻译数据集English-FrenchTranslationDataset-endofnight17j03 数据来源:互联网公开数据 标签:机器翻译,翻译,自然语言处理,数据集,语言模型,文本数据,双语语料库,NLP 数据概述: 该数据集包含英法双语翻译文本,记录了英语句子及其对应的法语翻译。主要特征如下:...
    packageimg
  • 未对齐的标记化数据集CenteredTokenized-2Dataset-enarior

    2025年4月24日   

    未对齐的标记化数据集CenteredTokenized-2Dataset-enarior 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本处理,机器学习,语言模型,数据标注,文本分类,深度学习 数据概述: 该数据集包含来自未对齐标记化处理过程的文本数据,记录了经过特定标记化方法处理的文本样本。主要特征如下:...
    packageimg
  • 谷歌问题回答挑战赛数据集GoogleQuestQ-AChallengeDataset-kashnitsky

    2025年4月24日   

    谷歌问题回答挑战赛数据集GoogleQuestQ-AChallengeDataset-kashnitsky 数据来源:互联网公开数据 标签:自然语言处理,问答系统,数据集,机器学习,文本分析,知识图谱,人工智能,语言模型 数据概述:...
    packageimg
  • 西班牙国会发言标点检测数据集

    2025年4月24日   

    西班牙国会发言标点检测数据集 数据来源:互联网公开数据 标签:西班牙国会,标点符号检测,自然语言处理,文本分析,语料库,语法结构,语言模型,文本分类 数据概述: 本数据集收录了2011年至2020年间西班牙国会议员的完整发言记录,按发言人分段整理。每句话被拆分为单个单词,并根据以下标准进行分类: 1....
    packageimg
  • CrowS-Pairs社会偏见评估挑战数据集-thedevastator

    2025年4月24日   

    CrowS-Pairs社会偏见评估挑战数据集-thedevastator 数据来源:互联网公开数据 标签:社会偏见,MLM,语言模型,机器学习,数据集,教育,研究,公平性 数据概述: CrowS-...
    packageimg
  • 组合故事文本数据集CombinedStoriesTextDataset-ahmadrezacuet

    2025年4月24日   

    组合故事文本数据集CombinedStoriesTextDataset-ahmadrezacuet 数据来源:互联网公开数据 标签:故事文本,数据集,自然语言处理,文本分析,机器学习,文本生成,数据分析,语言模型 数据概述: 该数据集包含来自多个来源的组合故事文本数据,记录了各类故事文本的内容和结构。主要特征如下:...
    packageimg
  • 问答数据集QuestionAnsweringDataset-namphmquang

    2025年4月24日   

    问答数据集QuestionAnsweringDataset-namphmquang 数据来源:互联网公开数据 标签:问答系统,自然语言处理,数据集,机器学习,语言模型,知识库,信息检索,人工智能 数据概述:该数据集包含来自多个来源的问答对数据,记录了用户提出的问题及其对应的答案。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。...
    packageimg
  • 维基百科句子数据集WikiSentencesV2-ranjitp20

    2025年4月24日   

    维基百科句子数据集WikiSentencesV2-ranjitp20 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,语言模型,文本语料库,信息检索,机器学习,文本摘要 数据概述: 该数据集包含了来自维基百科的句子,旨在为自然语言处理任务提供大规模文本语料库。主要特征如下:...
    packageimg