数据集 - 海数据

写作风格与生成文本检测数据集WritingStyle-GeneratedTextDetectionDataset-shijirbatbaatar

2025年5月28日

写作风格与生成文本检测数据集WritingStyle-GeneratedTextDetectionDataset-shijirbatbaatar 数据来源：互联网公开数据标签：文本分析, 写作风格, 机器生成文本, 文本分类, 自然语言处理, 论文写作, 语言模型, 数据集数据概述：...

ZIP

PSPV5C嵌入向量数据集PSPV5CEmbeddingsDataset-shinomoriaoshi

2025年5月28日

PSPV5C嵌入向量数据集PSPV5CEmbeddingsDataset-shinomoriaoshi 数据来源：互联网公开数据标签：嵌入向量，数据集，自然语言处理，机器学习，文本分析，深度学习，语言模型，语义理解数据概述：该数据集包含来自PSPV5C模型的嵌入向量数据，记录了大量文本数据的语义表示。主要特征如下：...

ZIP

大型语言模型分类微调数据集LLMClassificationFine-tuningDataset-manishkumarpatel13

2025年5月28日

大型语言模型分类微调数据集LLMClassificationFine-tuningDataset-manishkumarpatel13 数据来源：互联网公开数据标签：自然语言处理，机器学习，数据集，文本分类，深度学习，人工智能，语言模型，模型微调数据概述：该数据集专注于大型语言模型（Large Language Model,...

ZIP

阿拉伯语新闻摘要数据集ArabicNewsSummarizationDataset-omarrelsayeed

2025年5月28日

阿拉伯语新闻摘要数据集ArabicNewsSummarizationDataset-omarrelsayeed 数据来源：互联网公开数据标签：新闻摘要, 自然语言处理, 阿拉伯语, 文本生成, 机器翻译, 文本摘要, 语言模型, 数据集数据概述：该数据集包含来自阿拉伯语新闻文章及其对应的摘要。主要特征如下：...

ZIP

大规模语言模型超反馈平衡数据集LMSYSUltraFeedbackDataset-Balanced-sethmoudry

2025年5月28日

大规模语言模型超反馈平衡数据集LMSYSUltraFeedbackDataset-Balanced-sethmoudry 数据来源：互联网公开数据标签：自然语言处理，语言模型，数据集，机器学习，模型训练，情感分析，文本分类，人工智能数据概述：...

ZIP

写作质量评估论文数据集EssayQualityAssessmentEssays-laurensprast

2025年5月28日

写作质量评估论文数据集EssayQualityAssessmentEssays-laurensprast 数据来源：互联网公开数据标签：写作评估, 文本分析, 情感分析, 论文写作, 语言模型, 机器学习, 文本分类, 写作技巧数据概述：该数据集包含来自多个来源的英文论文，记录了不同来源的论文文本及其对应的质量标签。主要特征如下：...

ZIP

语言纠错词汇校对数据集LanguageCorrectionVocabularyCalibrationDataset-yeoyunsianggeremie

2025年5月28日

语言纠错词汇校对数据集LanguageCorrectionVocabularyCalibrationDataset-yeoyunsianggeremie 数据来源：互联网公开数据标签：语言校对, 文本处理, 词汇纠错, 语法检查, 自然语言处理, 语言模型, 词典, 数据集数据概述：...

ZIP

越南语问答数据集VietnameseQuestionAnsweringDataset-anhnguyenkagglethree

2025年5月28日

越南语问答数据集VietnameseQuestionAnsweringDataset-anhnguyenkagglethree 数据来源：互联网公开数据标签：问答系统, 自然语言处理, 文本理解, 越南语, 语料库, 信息检索, 语言模型, 数据集数据概述：该数据集包含来自越南语问答系统的数据，记录了越南语问题及其对应的标识符。主要特征如下：...

ZIP

文本可读性评估训练数据集TextReadabilityAssessmentTrainingDataset-siminrao

2025年5月28日

文本可读性评估训练数据集TextReadabilityAssessmentTrainingDataset-siminrao 数据来源：互联网公开数据标签：文本可读性, 自然语言处理, 文本分析, 机器学习, 文本难度, 语言模型, 数据集, 训练数据数据概述：...

ZIP

越南语自然语言处理NLP数据集-minhhieuhuynh

2025年5月28日

越南语自然语言处理NLP数据集-minhhieuhuynh 数据来源：互联网公开数据标签：自然语言处理，越南语，文本分析，机器翻译，情感分析，数据集，语言模型，文本挖掘数据概述：该数据集包含来自越南语文本的数据，用于自然语言处理任务。主要特征如下：时间跨度：数据记录的时间跨度不定，取决于具体子数据集，可能涵盖多年。...

ZIP

评论翻译与校对数据集CommentsTranslationandProofreadingDataset-yamak1906

2025年5月28日

评论翻译与校对数据集CommentsTranslationandProofreadingDataset-yamak1906 数据来源：互联网公开数据标签：自然语言处理，文本翻译，数据集，语言模型，机器学习，文本校对，机器翻译，文本处理数据概述：该数据集包含来自互联网的评论数据，记录了不同语言之间的评论翻译与校对信息。主要特征如下：...

ZIP

世宗人工智能挑战赛数据集SejongAIChallengeDataset-mkpuro

2025年5月28日

世宗人工智能挑战赛数据集SejongAIChallengeDataset-mkpuro 数据来源：互联网公开数据标签：人工智能，数据集，自然语言处理，文本分类，机器翻译，情感分析，语言模型，韩国语数据概述：该数据集包含来自世宗人工智能挑战赛的竞赛数据，主要涉及韩国语的文本处理任务。主要特征如下：时间跨度：数据记录的时间范围为挑战赛期间。...

ZIP

基尼亚卢旺达语预训练与微调数据集-kclaude

2025年5月28日

基尼亚卢旺达语预训练与微调数据集-kclaude 数据来源：互联网公开数据标签：基尼亚卢旺达语，自然语言处理，数据集，预训练，微调，语言模型，文本数据，非洲语言数据概述：该数据集包含了用于基尼亚卢旺达语自然语言处理任务的预训练和微调数据。主要特征如下：时间跨度：数据记录的时间范围没有明确限制，数据集持续更新，涵盖不同时期的文本资料。...

ZIP

阿拉伯语新闻真伪识别数据集ArabicNewsCredibilityAssessment-nahlayasmine

2025年5月28日

阿拉伯语新闻真伪识别数据集ArabicNewsCredibilityAssessment-nahlayasmine 数据来源：互联网公开数据标签：新闻真伪, 阿拉伯语, 文本分类, 自然语言处理, 政治新闻, 舆情分析, 机器学习, 语言模型数据概述：...

ZIP

新闻摘要生成深度学习数据集NewsSummarizationDatasetforDeepLearning-luisllll

2025年5月28日

新闻摘要生成深度学习数据集NewsSummarizationDatasetforDeepLearning-luisllll 数据来源：互联网公开数据标签：新闻摘要，数据集，自然语言处理，深度学习，文本生成，机器学习，语言模型，人工智能数据概述：该数据集包含来自多个新闻平台的新闻文章及其对应的摘要，记录了新闻内容的文本信息和精简摘要。主要特征如下：...

ZIP

教育领域学生写作质量评估数据集EducationStudentWritingQualityAssessment-jay12332

2025年5月28日

教育领域学生写作质量评估数据集EducationStudentWritingQualityAssessment-jay12332 数据来源：互联网公开数据标签：文本分析, 写作评估, 机器学习, 自然语言处理, 教育, 情感分析, 文本分类, 语言模型数据概述：...

ZIP

大型新闻语料库数据集GigawordCorpusDataset-arngowda

2025年5月28日

大型新闻语料库数据集GigawordCorpusDataset-arngowda 数据来源：互联网公开数据标签：新闻语料，数据集，自然语言处理，文本分析，机器学习，语言模型，人工智能，信息提取数据概述：该数据集包含来自全球各大新闻机构的新闻报道文本，记录了海量新闻文章的全文内容。主要特征如下：...

ZIP

越南语语音转录文本数据集VietnameseSpeechTranscriptionDataset-chauly

2025年5月28日

越南语语音转录文本数据集VietnameseSpeechTranscriptionDataset-chauly 数据来源：互联网公开数据标签：语音识别, 语音转录, 越南语, 声学模型, 语言模型, 文本标注, 音频分析, 深度学习数据概述：该数据集包含越南语语音片段及其对应的文本转录内容。主要特征如下：...

ZIP

大规模语言模型训练数据集MasterModelData-stillcler

2025年5月28日

大规模语言模型训练数据集MasterModelData-stillcler 数据来源：互联网公开数据标签：自然语言处理，大规模语言模型，数据集，文本数据，机器学习，深度学习，预训练，数据清洗数据概述：该数据集包含用于训练大规模语言模型的海量文本数据，涵盖多种来源和语言。主要特征如下：时间跨度：...