-
大规模语言模型训练数据集MasterModelData-stillcler
大规模语言模型训练数据集MasterModelData-stillcler 数据来源:互联网公开数据 标签:自然语言处理,大规模语言模型,数据集,文本数据,机器学习,深度学习,预训练,数据清洗 数据概述: 该数据集包含用于训练大规模语言模型的海量文本数据,涵盖多种来源和语言。主要特征如下: 时间跨度:... -
Transformer模型嵌入与偏移分割数据集-chaudharypriyanshu
Transformer模型嵌入与偏移分割数据集-chaudharypriyanshu 数据来源:互联网公开数据 标签:自然语言处理,数据集,Transformer,词嵌入,偏移量,分割,文本分析,深度学习 数据概述: 该数据集包含用于训练和评估Transformer模型,特别是关注词嵌入、偏移量计算和序列分割的数据。主要特征如下:... -
医疗问答指令数据集MedicalQuestionAnsweringInstructionDataset-arungarimella
医疗问答指令数据集MedicalQuestionAnsweringInstructionDataset-arungarimella 数据来源:互联网公开数据 标签:医疗, 问答系统, 指令, 自然语言处理, 文本生成, 医疗健康, 大模型, 数据标注 数据概述:... -
数据2020年20-000条查询预处理数据集20kQueriesPreprocessedData2020-ictworld
2020年20-000条查询预处理数据集20kQueriesPreprocessedData2020-ictworld 数据来源:互联网公开数据 标签:查询数据,数据预处理,数据集,自然语言处理,搜索引擎,文本分析,机器学习,信息检索 数据概述:... -
网络评论有害内容识别数据集UnzippedToxicCommentsDataset-mahmoudelkarargy1
网络评论有害内容识别数据集UnzippedToxicCommentsDataset-mahmoudelkarargy1 数据来源:互联网公开数据 标签:网络评论,有害内容,数据集,文本分类,机器学习,自然语言处理,情感分析,数据挖掘 数据概述:... -
计算机视觉与自然语言处理交叉领域数据集-sai1881
计算机视觉与自然语言处理交叉领域数据集-sai1881 数据来源:互联网公开数据 标签:计算机视觉,自然语言处理,跨模态,数据集,图像描述,文本生成,多模态学习,人工智能 数据概述:该数据集包含图像与文本的配对数据,主要用于研究计算机视觉与自然语言处理(NLP)的交叉领域。主要特征如下: 时间跨度:数据记录的时间范围不限。... -
谷歌与Mozilla豪萨语音频数据集GoogleandMozillaHausaAudioDataset-horlawale
谷歌与Mozilla豪萨语音频数据集GoogleandMozillaHausaAudioDataset-horlawale 数据来源:互联网公开数据 标签:音频数据,豪萨语,自然语言处理,语音识别,机器学习,多语言,语音合成,人工智能 数据概述: 该数据集由谷歌和Mozilla联合提供,包含豪萨语的音频数据,记录了豪萨语的语音样本。主要特征如下:... -
大型语言模型提示恢复门控聚类标签数据集LLMPromptRecoveryGateClusterTagsDataset-arc144
大型语言模型提示恢复门控聚类标签数据集LLMPromptRecoveryGateClusterTagsDataset-arc144 数据来源:互联网公开数据 标签:语言模型,提示恢复,聚类分析,数据集,机器学习,自然语言处理,人工智能,数据挖掘 数据概述:... -
社交媒体有害言论检测训练数据集SocialMediaToxicSpeechDetectionTrainingDataset-jmrludan
社交媒体有害言论检测训练数据集SocialMediaToxicSpeechDetectionTrainingDataset-jmrludan 数据来源:互联网公开数据 标签:有害言论, 文本分类, 情感分析, 自然语言处理, 机器学习, 社交媒体, 语料库, 数据标注 数据概述:... -
越南新闻文章数据集VNExpressArticlesDataset-trnnhtminh
越南新闻文章数据集VNExpressArticlesDataset-trnnhtminh 数据来源:互联网公开数据 标签:新闻,文章,数据集,自然语言处理,文本分析,机器学习,媒体研究,越南语 数据概述: 该数据集包含来自越南最大新闻网站之一——越南新闻(VNExpress)的文章数据,记录了该网站发布的新闻文章的详细信息。主要特征如下:... -
大型语言模型系统LMSYS对话数据集-cosheimil
大型语言模型系统LMSYS对话数据集-cosheimil 数据来源:互联网公开数据 标签:大型语言模型,对话数据,自然语言处理,机器学习,数据集,文本生成,语言模型训练,人工智能 数据概述: 该数据集由 LMSYS 团队收集整理,包含了大量人机对话和模型生成的文本数据,旨在促进大型语言模型(LLM)的研究和发展。主要特征如下:... -
双向长短期记忆网络模型数据集NewBiLSTMDataDataset-daniabizarahmad
双向长短期记忆网络模型数据集NewBiLSTMDataDataset-daniabizarahmad 数据来源:互联网公开数据 标签:双向长短期记忆网络,数据集,机器学习,自然语言处理,文本分析,时间序列,深度学习,人工智能 数据概述:... -
新闻文本分类数据集NewsTextClassificationDataset-harshapandu
新闻文本分类数据集NewsTextClassificationDataset-harshapandu 数据来源:互联网公开数据 标签:文本分类, 新闻, 自然语言处理, 机器学习, 情感分析, 语料库, 深度学习, 文本挖掘 数据概述: 该数据集包含来自新闻文章的文本数据,记录了新闻文章的标题与描述,并进行了类别划分。主要特征如下:... -
中文情感分析酒店评论数据集ChineseSentimentAnalysisHotelReviews-kk0105
中文情感分析酒店评论数据集ChineseSentimentAnalysisHotelReviews-kk0105 数据来源:互联网公开数据 标签:情感分析, 文本分类, 酒店评论, 自然语言处理, 情感标注, 中文语料, 机器学习, 情感极性 数据概述:... -
英国广播公司BBC新闻文本分类数据集GBRNew200TrialDataset-fischcatcher
英国广播公司BBC新闻文本分类数据集GBRNew200TrialDataset-fischcatcher 数据来源:互联网公开数据 标签:新闻分类,文本分析,数据集,机器学习,自然语言处理,模式识别,分类算法,数据挖掘 数据概述: 该数据集包含来自英国广播公司(BBC)的新闻文本数据,记录了200篇新闻文章的文本内容和分类标签。主要特征如下:... -
CLIP图像嵌入数据集ClipImageEmbeddingDataset-ishaaaaan
CLIP图像嵌入数据集ClipImageEmbeddingDataset-ishaaaaan 数据来源:互联网公开数据 标签:图像嵌入,数据集,计算机视觉,机器学习,深度学习,图像识别,自然语言处理,多模态学习 数据概述: 该数据集包含来自CLIP项目(Conceptual Captions for Image Retrieval and Text-... -
消费者评论摘要数据集Review-SumConsumerReviewSummaryDataset-harshalkarangale
消费者评论摘要数据集Review-SumConsumerReviewSummaryDataset-harshalkarangale 数据来源:互联网公开数据 标签:消费者评论,文本摘要,数据集,自然语言处理,情感分析,机器学习,文本处理,数据挖掘 数据概述:... -
客户反馈多折交叉验证数据集FeedbackTrainFoldsDataset-leolu1998
客户反馈多折交叉验证数据集FeedbackTrainFoldsDataset-leolu1998 数据来源:互联网公开数据 标签:客户反馈,数据集,多折交叉验证,机器学习,文本分析,情感分析,自然语言处理,数据科学 数据概述: 该数据集包含客户反馈数据,并进行了多折交叉验证(K-Fold Cross-... -
消费者金融投诉文本分类数据集ConsumerFinancialComplaintTextClassificationDataset-fe4wfw43
消费者金融投诉文本分类数据集ConsumerFinancialComplaintTextClassificationDataset-fe4wfw43 数据来源:互联网公开数据 标签:消费者投诉, 金融服务, 文本分类, 自然语言处理, 机器学习, 投诉分析, 数据挖掘, 情感分析 数据概述:... -
文本分类特征工程数据集TextClassificationFeatureEngineeringDataset-a0049228b
文本分类特征工程数据集TextClassificationFeatureEngineeringDataset-a0049228b 数据来源:互联网公开数据 标签:文本分类, 特征工程, 自然语言处理, 文本特征, 机器学习, 情感分析, 词性标注, 数据预处理 数据概述: 该数据集包含经过特征工程处理的文本数据,用于文本分类任务。主要特征如下:...