数据集 - 海数据

维基百科训练数据集Wiki-TrainDataset-victoriasaz

2025年5月28日

维基百科训练数据集Wiki-TrainDataset-victoriasaz 数据来源：互联网公开数据标签：自然语言处理，文本分析，数据集，机器学习，维基百科，文本分类，语言模型，信息检索数据概述：该数据集包含来自维基百科的文本数据，主要用于训练自然语言处理模型。主要特征如下：...

ZIP

阿拉伯语新闻摘要数据集ArabicNewsSummarizationDataset-fadyelkbeer

2025年5月18日

阿拉伯语新闻摘要数据集ArabicNewsSummarizationDataset-fadyelkbeer 数据来源：互联网公开数据标签：新闻摘要, 阿拉伯语, 自然语言处理, 文本摘要, 机器翻译, 新闻语料库, 文本分析, 语言模型数据概述：该数据集包含来自BBC新闻的阿拉伯语新闻文章及其摘要，旨在用于文本摘要任务。主要特征如下：...

ZIP

大型语言模型人工智能公开数据组合数据集LLMAIPublicDataCombinedDataset-droidbaza

2025年5月28日

大型语言模型人工智能公开数据组合数据集LLMAIPublicDataCombinedDataset-droidbaza 数据来源：互联网公开数据标签：大型语言模型，人工智能，数据集，自然语言处理，机器学习，文本分析，数据整合，开源数据数据概述：...

ZIP

数据235k人类与大型语言模型对比数据集235kHumanvs-LLMDatasetwith1024Tokens-hajarhisham

2025年5月28日

235k人类与大型语言模型对比数据集235kHumanvs-LLMDatasetwith1024Tokens-hajarhisham 数据来源：互联网公开数据标签：人工智能，自然语言处理，数据集，机器学习，语言模型，文本生成，对比分析，模型评估数据概述：...

ZIP

文本创作风格迁移指令数据集TextStyleTransferPromptDataset-yuanzhezhou

2025年5月14日

文本创作风格迁移指令数据集TextStyleTransferPromptDataset-yuanzhezhou 数据来源：互联网公开数据标签：文本生成, 风格迁移, 自然语言处理, 提示工程, 文本创作, 深度学习, 数据增强, 语言模型数据概述：...

ZIP

网络评论反讽识别数据集SarcasmPreprocessedDataset-arghya007

2025年5月28日

网络评论反讽识别数据集SarcasmPreprocessedDataset-arghya007 数据来源：互联网公开数据标签：自然语言处理，情感分析，数据集，机器学习，文本挖掘，情感识别，语言模型，社交媒体数据概述：该数据集包含经过预处理的网络评论数据，主要用于识别和分类反讽评论。主要特征如下：...

ZIP

波斯语文本改写数据集PersianParaphraseDataset-armannikkhah

2025年5月28日

波斯语文本改写数据集PersianParaphraseDataset-armannikkhah 数据来源：互联网公开数据标签：自然语言处理，文本改写，机器翻译，语言模型，多语言数据集，机器学习，语义分析，人工智能数据概述：该数据集包含来自波斯语领域的文本改写数据，记录了波斯语文本的改写和翻译对。主要特征如下：...

ZIP

数据2024年语音识别与自然语言处理大赛Whisper2024数据集Whisper2024Dataset-tsobolev

2025年5月28日

2024年语音识别与自然语言处理大赛Whisper2024数据集Whisper2024Dataset-tsobolev 数据来源：互联网公开数据标签：语音识别，自然语言处理，数据集，机器学习，语音转文字，人工智能，深度学习，语言模型数据概述：该数据集由2024年语音识别与自然语言处理大赛（Whisper...

ZIP

神经问答翻译数据集NQ-TranslatedDataDataset-vanle73

2025年5月28日

神经问答翻译数据集NQ-TranslatedDataDataset-vanle73 数据来源：互联网公开数据标签：机器翻译，自然语言处理，问答系统，数据集，文本翻译，语义理解，深度学习，语言模型数据概述：该数据集包含了从神经问答（NQ）数据集中翻译而来的数据，旨在用于机器翻译和跨语言问答系统的研究。主要特征如下：...

ZIP

TinyBERT文本相似度计算数据集-ktgiahieu

2025年5月28日

TinyBERT文本相似度计算数据集-ktgiahieu 数据来源：互联网公开数据标签：文本相似度，自然语言处理，数据集，语义分析，机器翻译，深度学习，文本分析，语言模型数据概述：该数据集是用于训练和评估基于TinyBERT模型的文本相似度计算任务的数据集。主要特征如下：时间跨度：数据涵盖了不同时间段的文本数据。...

ZIP

大型语言模型与人类在机器学习分类任务中的表现对比数据集LLMvsHumanMLClassifiersDataset-mohamedlotfy50

2025年5月28日

大型语言模型与人类在机器学习分类任务中的表现对比数据集LLMvsHumanMLClassifiersDataset-mohamedlotfy50 数据来源：互联网公开数据标签：机器学习，语言模型，分类任务，性能对比，人工智能，数据分析，模型评估，自然语言处理数据概述：该数据集专注于对比大型语言模型（Large Language Models,...

ZIP

阿拉伯语新闻摘要数据集ArabicNewsArticlesSummaryDataset-aymanmohamed104

2025年5月28日

阿拉伯语新闻摘要数据集ArabicNewsArticlesSummaryDataset-aymanmohamed104 数据来源：互联网公开数据标签：新闻摘要, 阿拉伯语, 文本摘要, 自然语言处理, 文本分析, 舆情分析, 语言模型, 摘要生成数据概述：...

ZIP

快速AI语言模型训练数据集FastAIWt103LanguageModelTrainingDataset-aunghtayah

2025年5月28日

快速AI语言模型训练数据集FastAIWt103LanguageModelTrainingDataset-aunghtayah 数据来源：互联网公开数据标签：自然语言处理，语言模型，数据集，深度学习，文本分类，文本生成，机器学习，AI研究数据概述：...

ZIP

伪推理数据集Pseudo-InferenceDataset2-black99ylunar

2025年5月28日

伪推理数据集Pseudo-InferenceDataset2-black99ylunar 数据来源：互联网公开数据标签：伪推理，数据集，自然语言处理，机器学习，文本生成，深度学习，人工智能，语言模型数据概述：该数据集包含用于自然语言处理和机器学习任务中的伪推理数据，记录了文本生成和推理任务中的输入输出对。主要特征如下：...

ZIP

自然语言处理模型与算法数据集TransformersTutorialDataset-b1ueee

2025年5月28日

自然语言处理模型与算法数据集TransformersTutorialDataset-b1ueee 数据来源：互联网公开数据标签：自然语言处理，机器学习，深度学习，数据集，模型训练，文本分类，语言模型，算法研究数据概述：该数据集包含来自自然语言处理领域的模型与算法数据，记录了用于训练和评估自然语言处理模型的文本和标签信息。主要特征如下：...

ZIP

语言模型系统数据集LMSYSDatasets-lizhecheng

2025年5月28日

语言模型系统数据集LMSYSDatasets-lizhecheng 数据来源：互联网公开数据标签：自然语言处理，机器学习，数据集，语言模型，文本生成，深度学习，人工智能，模型评估数据概述：该数据集由LMSYS项目提供，主要记录了多种语言模型在文本生成和自然语言处理任务中的表现数据。主要特征如下：...

ZIP

文本润色指令数据集TextRefinementPromptDataset-yuanzhezhou

2025年5月7日

文本润色指令数据集TextRefinementPromptDataset-yuanzhezhou 数据来源：互联网公开数据标签：文本生成, 提示工程, 自然语言处理, 文本编辑, 风格迁移, 数据标注, 语言模型, 任务指令数据概述：该数据集包含用于文本润色的指令，记录了多种文本改写、风格转换的任务描述。主要特征如下：...

ZIP

文本片段上下文关系数据集TextFragmentContextRelationshipDataset-srisanthoshhari

2025年5月26日

文本片段上下文关系数据集TextFragmentContextRelationshipDataset-srisanthoshhari 数据来源：互联网公开数据标签：文本分析，自然语言处理，上下文关系，片段抽取，语言模型，数据标注，文本序列，语料库数据概述：该数据集包含从特定语料库中提取的文本片段及其上下文信息。主要特征如下：...