数据集 - 海数据

自然语言处理聊天机器人数据集NLPChatbotData-shekhartiruwa25

2025年5月30日

自然语言处理聊天机器人数据集NLPChatbotData-shekhartiruwa25 数据来源：互联网公开数据标签：自然语言处理，聊天机器人，数据集，对话系统，机器学习，文本分析，人工智能，语言模型数据概述：该数据集包含来自公开来源的自然语言处理聊天机器人对话数据，记录了用户与聊天机器人的交互内容。主要特征如下：...

ZIP

英法翻译数据集English-to-FrenchTranslationDataset-othmansamih

2025年5月30日

英法翻译数据集English-to-FrenchTranslationDataset-othmansamih 数据来源：互联网公开数据标签：机器翻译，自然语言处理，数据集，英法翻译，语言模型，文本数据，深度学习，翻译模型数据概述：该数据集包含英语到法语的翻译文本数据，旨在用于机器翻译模型的训练和评估。主要特征如下：...

ZIP

语言模型系统大规模数据集LMSys72KDataset-qinhaoyang

2025年5月30日

语言模型系统大规模数据集LMSys72KDataset-qinhaoyang 数据来源：互联网公开数据标签：语言模型，自然语言处理，数据集，机器学习，文本分析，人工智能，大数据，文本生成数据概述：该数据集由LMSys项目提供，包含大规模的文本数据，适用于语言模型训练、自然语言处理及文本生成等任务。主要特征如下：...

ZIP

文本分析与自然语言处理数据集TextAnalysisandNLPDataset-jayjinnie

2025年5月30日

文本分析与自然语言处理数据集TextAnalysisandNLPDataset-jayjinnie 数据来源：互联网公开数据标签：文本分析，自然语言处理，数据集，机器学习，情感分析，文本分类，语言模型，信息提取数据概述：该数据集包含来自多个来源的文本数据，记录了各类文本内容及其相关属性。主要特征如下：...

ZIP

故事数据集StoryDataset-ahmadrezacuet

2025年5月30日

故事数据集StoryDataset-ahmadrezacuet 数据来源：互联网公开数据标签：故事，文本数据，自然语言处理，情感分析，叙事分析，数据集，机器学习，语言模型数据概述：该数据集包含大量故事文本，涵盖多种主题和风格。主要特征如下：时间跨度：数据的时间跨度取决于故事的创作时间，从古代神话传说到现代小说均有收录。...

ZIP

英语到印地语翻译数据集English-to-HindiTranslateDataset-saediscrazy

2025年5月30日

英语到印地语翻译数据集English-to-HindiTranslateDataset-saediscrazy 数据来源：互联网公开数据标签：机器翻译，自然语言处理，数据集，印地语，英语，文本翻译，语言模型，多语言数据概述：该数据集包含英语到印地语的翻译文本对，旨在用于机器翻译模型的训练和评估。主要特征如下：时间跨度：...

ZIP

维基百科摘要数据集Wiki-SumDataset-sandeep16064

2025年5月30日

维基百科摘要数据集Wiki-SumDataset-sandeep16064 数据来源：互联网公开数据标签：文本摘要，自然语言处理，数据集，机器学习，信息检索，文本分析，知识图谱，语言模型数据概述：该数据集包含来自维基百科的文本及对应的摘要数据，记录了维基百科条目的详细内容和自动生成的摘要信息。主要特征如下：...

ZIP

语言模型多轮对话质量评估数据集LanguageModelMulti-turnDialogueQualityEvaluation-mbaiornommbaihodji

2025年5月30日

语言模型多轮对话质量评估数据集LanguageModelMulti-turnDialogueQualityEvaluation-mbaiornommbaihodji 数据来源：互联网公开数据标签：多轮对话, 语言模型, 对话质量, 文本生成, 语义理解, 评估, 机器学习, 自然语言处理数据概述：...

ZIP

人类文本数据集HumanTextDataset-errordebug

2025年5月30日

人类文本数据集HumanTextDataset-errordebug 数据来源：互联网公开数据标签：文本数据，自然语言处理，数据集，机器学习，情感分析，文本分类，语言模型，人工智能数据概述：该数据集包含来自互联网公开渠道的人类生成文本数据，记录了各类文本内容的详细信息。主要特征如下：时间跨度：数据记录的时间范围从近年到现代。...

ZIP

多语言用户反馈数据集UltraFeedbackMultilingualDatasetfromHuggingFace-arman1611

2025年5月30日

多语言用户反馈数据集UltraFeedbackMultilingualDatasetfromHuggingFace-arman1611 数据来源：互联网公开数据标签：用户反馈，多语言数据集，自然语言处理，机器学习，情感分析，文本分类，数据增强，语言模型数据概述：该数据集来自Hugging...

ZIP

科学考试输入数据数据集-kashiwaba

2025年5月30日

科学考试输入数据数据集-kashiwaba 数据来源：互联网公开数据标签：科学考试，数据集，自然语言处理，文本分析，机器学习，教育，语言模型，考试评估数据概述：该数据集包含用于科学考试的输入数据，主要记录了各种科学考试题目、学生答案以及相关评估信息。主要特征如下：时间跨度：数据记录的时间范围涵盖了不同年份的科学考试题目。...

ZIP

文本生成与欺骗检测论文写作数据集TextGenerationandDeceptionDetectionEssayDataset-laurensprast

2025年5月30日

文本生成与欺骗检测论文写作数据集TextGenerationandDeceptionDetectionEssayDataset-laurensprast 数据来源：互联网公开数据标签：文本生成, 欺骗检测, 论文写作, 语言模型, 自然语言处理, 文本分类, 机器学习, 数据标注数据概述：...

ZIP

文本错别字检测与纠正数据集Typo-IntroDataset-chasembowers

2025年5月30日

文本错别字检测与纠正数据集Typo-IntroDataset-chasembowers 数据来源：互联网公开数据标签：自然语言处理，文本分析，数据集，错别字检测，机器学习，语言模型，文本纠错，人工智能数据概述：该数据集专注于文本中的错别字检测与纠正，记录了大量包含错别字的文本样本及其对应的正确文本。主要特征如下：...

ZIP

新闻摘要生成数据集XLSumCSVDataset-phoenixdev

2025年5月30日

新闻摘要生成数据集XLSumCSVDataset-phoenixdev 数据来源：互联网公开数据标签：新闻摘要，数据集，自然语言处理，文本生成，机器学习，信息提取，人工智能，语言模型数据概述：该数据集包含来自多个新闻来源的新闻摘要数据，记录了新闻文章及其对应的摘要信息。主要特征如下：时间跨度：数据记录的时间范围从2010年到2021年。...

ZIP

印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07

2025年5月30日

印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07 数据来源：互联网公开数据标签：自然语言处理，语言模型，文本分类，印地语，泰米尔语，数据集，机器学习，多语言处理数据概述：该数据集包含来自维基百科的印地语和泰米尔语文本数据，记录了两门语言的维基百科文章内容。主要特征如下：...

ZIP

印地语-英语平行语料翻译数据集Hindi-EnglishParallelTranslationCorpus-chinmaycp9

2025年5月30日

印地语-英语平行语料翻译数据集Hindi-EnglishParallelTranslationCorpus-chinmaycp9 数据来源：互联网公开数据标签：机器翻译, 语料库, 文本翻译, 自然语言处理, 双语数据, 印地语, 英语, 语言模型数据概述：该数据集包含来自互联网的印地语-...

ZIP

自然语言处理与情感分析数据集NLP-4-5M-Clean-SentencesDataset-amardura

2025年5月30日

自然语言处理与情感分析数据集NLP-4-5M-Clean-SentencesDataset-amardura 数据来源：互联网公开数据标签：自然语言处理，情感分析，数据集，文本分类，机器学习，数据挖掘，人工智能，语言模型数据概述：该数据集包含来自多个来源的清洗后的句子数据，记录了用于自然语言处理和情感分析任务的高质量文本内容。主要特征如下：...

ZIP

多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho

2025年5月30日

多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho 数据来源：互联网公开数据标签：文本分类, 恶意评论, 多语言, 自然语言处理, 情感分析, 语言模型, 文本清洗, 机器学习数据概述：...

ZIP

阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil

2025年5月30日

阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil 数据来源：互联网公开数据标签：阿拉伯语, 文本处理, 文本清洗, 自然语言处理, 语言模型, 字符级分析, 数据预处理, 语料库数据概述：该数据集包含经过处理的阿拉伯语文本，记录了原始文本及其对应的去标点版本。主要特征如下：...