-
大规模语言模型训练数据集LargeLanguageModelTrainingData-z1qz1q
大规模语言模型训练数据集LargeLanguageModelTrainingData-z1qz1q 数据来源:互联网公开数据 标签:自然语言处理,机器学习,数据集,文本数据,语言模型,预训练,文本生成,深度学习 数据概述: 该数据集包含大规模的文本数据,主要用于训练大型语言模型。主要特征如下:... -
全球抗议活动关键词数据集GDELTUnrestSAKeywordsDataset-liadperetz
全球抗议活动关键词数据集GDELTUnrestSAKeywordsDataset-liadperetz 数据来源:互联网公开数据 标签:抗议活动,关键词,全球,事件分析,文本挖掘,自然语言处理,社会学,政治学 数据概述: 该数据集基于全球事件,语言和趋势数据库(GDELT),包含了与全球抗议活动相关的关键词信息。主要特征如下:... -
IMDb电影评分与评论数据集IMDbMovieRatingsandReviewsDataset-archanakumari26
IMDb电影评分与评论数据集IMDbMovieRatingsandReviewsDataset-archanakumari26 数据来源:互联网公开数据 标签:电影评分,电影评论,数据集,自然语言处理,情感分析,数据挖掘,机器学习,娱乐产业 数据概述:... -
DeBERTa模型训练K折交叉验证数据集-lakshit95
DeBERTa模型训练K折交叉验证数据集-lakshit95 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,机器学习,DeBERTa,K折交叉验证,模型训练,NLP 数据概述: 该数据集用于训练和评估DeBERTa模型,采用了K折交叉验证(K-fold cross-validation)方法。主要特征如下: 时间跨度:... -
埃博拉-疟疾-脑膜炎文本挖掘数据集-kandahugues
埃博拉-疟疾-脑膜炎文本挖掘数据集-kandahugues 数据来源:互联网公开数据 标签:文本挖掘,疾病,埃博拉,疟疾,脑膜炎,医学,自然语言处理,疫情分析 数据概述: 该数据集包含了关于埃博拉,疟疾和脑膜炎三种疾病的文本数据,旨在用于文本挖掘和信息提取研究。主要特征如下:... -
Kompas新闻事实核查数据集CEK-FaktaKompasDataset-aginanjar
Kompas新闻事实核查数据集CEK-FaktaKompasDataset-aginanjar 数据来源:互联网公开数据 标签:新闻事实核查,数据集,信息真实性,新闻分析,机器学习,自然语言处理,媒体研究,文本分析 数据概述: 该数据集包含来自印尼Kompas新闻网站的事实核查数据,记录了新闻内容的真实性核查结果。主要特征如下:... -
语言翻译数据集LanguageTranslationDataset-rohitwaldekar
语言翻译数据集LanguageTranslationDataset-rohitwaldekar 数据来源:互联网公开数据 标签:语言翻译,数据集,机器学习,自然语言处理,文本分析,多语言,人工智能,数据挖掘 数据概述: 该数据集包含来自多个语言翻译项目的数据,记录了不同语言之间的文本翻译对。主要特征如下:... -
用户电影评论数据集UserMovieReviewDataset-vijayakowsi
用户电影评论数据集UserMovieReviewDataset-vijayakowsi 数据来源:互联网公开数据 标签:电影评论,数据集,情感分析,自然语言处理,用户行为,数据挖掘,商业智能,机器学习 数据概述: 该数据集包含来自互联网用户对电影的评价数据,记录了用户对电影的主观评价和评分。主要特征如下:... -
印地语推文反讽检测数据集HindiTweetsDatasetforSarcasmDetection-pragyakatyayan
印地语推文反讽检测数据集HindiTweetsDatasetforSarcasmDetection-pragyakatyayan 数据来源:互联网公开数据 标签:印地语,社交媒体,推文分析,反讽检测,自然语言处理,情感分析,机器学习,文本分类 数据概述: 该数据集包含来自印地语社交媒体平台的推文数据,专门用于反讽检测任务。主要特征如下:... -
Mercari商品价格预测数据集MercariSubmission3-ProductPricePredictionDataset-niranjanmaisnam
Mercari商品价格预测数据集MercariSubmission3-ProductPricePredictionDataset-niranjanmaisnam 数据来源:互联网公开数据 标签:电子商务,价格预测,数据集,机器学习,零售业,自然语言处理,商品分类,商业智能 数据概述:... -
关键词提取与文本分析数据集PlusKeywordDataset-chaewonjeon1116
关键词提取与文本分析数据集PlusKeywordDataset-chaewonjeon1116 数据来源:互联网公开数据 标签:自然语言处理,关键词提取,文本分析,数据集,机器学习,信息检索,文本挖掘,语义分析 数据概述: 该数据集包含来自多个公开来源的文本数据,专注于关键词提取和文本分析任务。主要特征如下:... -
肯尼亚摩托出租车推特数据BodaBodaMenaceinKenyaFilteredTweets数据集-marthamwaura
肯尼亚摩托出租车推特数据BodaBodaMenaceinKenyaFilteredTweets数据集-marthamwaura 数据来源:互联网公开数据 标签:推特数据,社交媒体,肯尼亚,摩托出租车,社会问题,文本分析,自然语言处理,舆情分析 数据概述: 该数据集包含来自推特(Twitter)的公开数据,记录了关于肯尼亚摩托出租车(Boda... -
图书销量与评论数据集BooksSalesandReviewsDataset-cucudas
图书销量与评论数据集BooksSalesandReviewsDataset-cucudas 数据来源:互联网公开数据 标签:图书,销量,评论,数据集,文本分析,自然语言处理,推荐系统,市场分析 数据概述: 该数据集包含来自互联网的图书销售和评论数据,记录了图书的销售情况,用户评论以及相关信息。主要特征如下: 时间跨度:... -
孟加拉语命名实体识别数据集-koushikdeb
孟加拉语命名实体识别数据集-koushikdeb 数据来源:互联网公开数据 标签:自然语言处理,命名实体识别,孟加拉语,数据集,语言学,文本分析,机器学习,NLP 数据概述: 该数据集包含孟加拉语文本,用于命名实体识别(NER)任务。主要特征如下: 时间跨度: 数据集未明确时间范围,但涵盖了不同年代和主题的文本。 地理范围:... -
基特韦新闻语言模型数据集KitweNewsLLMDataset-kavinnan
基特韦新闻语言模型数据集KitweNewsLLMDataset-kavinnan 数据来源:互联网公开数据 标签:新闻,语言模型,数据集,自然语言处理,机器学习,文本分析,信息提取,非洲研究 数据概述:该数据集包含来自赞比亚基特韦地区新闻媒体的文本数据,记录了该地区最新的新闻报道和事件。主要特征如下:... -
灾难推文真假预测数据集NLPDisasterTweetsDataset-asepsaputra
灾难推文真假预测数据集NLPDisasterTweetsDataset-asepsaputra 数据来源:互联网公开数据 标签:自然语言处理,推文,灾难,预测,文本分类,机器学习,社交媒体,情感分析 数据概述: 该数据集包含来自Twitter的推文数据,旨在用于预测推文是否与真实的灾难事件相关。主要特征如下:... -
专利文本挖掘与预测竞赛PTPM排行榜数据集PatentTextMiningandPredictionCompetitionLeaderboardsData...
专利文本挖掘与预测竞赛PTPM排行榜数据集PatentTextMiningandPredictionCompetitionLeaderboardsDataset-fritzcremer 数据来源:互联网公开数据 标签:专利分析,文本挖掘,数据集,机器学习,自然语言处理,预测模型,人工智能,竞赛数据 数据概述:... -
微博立场分析数据集WeiboStanceAnalysisDataset-cuiximaiguidi0329
微博立场分析数据集WeiboStanceAnalysisDataset-cuiximaiguidi0329 数据来源:互联网公开数据 标签:社交媒体,立场分析,数据集,文本挖掘,自然语言处理,情感分析,机器学习,数据科学 数据概述: 该数据集包含来自微博平台的数据,记录了用户对特定话题的立场表达。主要特征如下:... -
文本评论数据分析数据集ReviewDataTextDataset-asjad2024
文本评论数据分析数据集ReviewDataTextDataset-asjad2024 数据来源:互联网公开数据 标签:文本分析,数据集,评论数据,情感分析,自然语言处理,机器学习,市场研究,消费者行为 数据概述: 该数据集包含来自互联网公开平台的文本评论数据,记录了用户对产品,服务或内容的多维度评价。主要特征如下:... -
泰国图像描述数据集ThaiCaptionDataset-blacksilva
泰国图像描述数据集ThaiCaptionDataset-blacksilva 数据来源:互联网公开数据 标签:图像描述,计算机视觉,自然语言处理,数据集,机器学习,视觉识别,多模态学习,人工智能 数据概述: 该数据集包含来自泰国地区的图像及其对应的泰文描述文本,记录了图像内容与泰文描述之间的关联。主要特征如下:...