-
个人身份信息检测训练数据集PIIDetectionTrainDataset-kuohsintu
个人身份信息检测训练数据集PIIDetectionTrainDataset-kuohsintu 数据来源:互联网公开数据 标签:个人身份信息,数据集,隐私保护,自然语言处理,文本分析,机器学习,信息安全,数据保护 数据概述:该数据集包含用于训练个人身份信息(PII)检测模型的数据,记录了多种类型的文本数据及其标注的个人身份信息。主要特征如下:... -
阿拉伯语新闻数据集ArabicNewsDatasetfromSabqWebsite-abdulrahmanals
阿拉伯语新闻数据集ArabicNewsDatasetfromSabqWebsite-abdulrahmanals 数据来源:互联网公开数据 标签:阿拉伯语,新闻数据,数据集,自然语言处理,文本分析,机器学习,新闻分类,语言资源 数据概述: 该数据集包含来自沙特阿拉伯Sabq新闻网站的文章数据,记录了网站发布的阿拉伯语新闻报道。主要特征如下:... -
谷歌学术论文引用数据集GA-Only-Mod-CViT-lintusub
谷歌学术论文引用数据集GA-Only-Mod-CViT-lintusub 数据来源:互联网公开数据 标签:学术论文,引用分析,计算机视觉,数据集,文本挖掘,机器学习,自然语言处理,学术研究 数据概述: 该数据集包含来自谷歌学术(Google Scholar)的论文引用信息,专注于计算机视觉(CViT)领域的相关研究。主要特征如下:... -
Agoda酒店评论数据集-atulmittal199174
Agoda酒店评论数据集-atulmittal199174 数据来源:互联网公开数据 标签:酒店,评论,数据集,文本分析,情感分析,旅游,自然语言处理,机器学习 数据概述: 该数据集包含来自Agoda网站的酒店评论数据,记录了用户对酒店的评价和相关信息。主要特征如下: 时间跨度:数据记录的时间范围未知,具体时间跨度依赖于原始数据。... -
阿拉伯民间故事数据集RaidArabicStoriesDataset-raidouahioune
阿拉伯民间故事数据集RaidArabicStoriesDataset-raidouahioune 数据来源:互联网公开数据 标签:阿拉伯文化,民间故事,文本分析,自然语言处理,情感分析,语言学,文化研究,叙事学 数据概述:该数据集包含来自Raid项目收集的阿拉伯民间故事,记录了阿拉伯地区的各种民间故事和传说。主要特征如下:... -
新闻文本分类数据集-mengkoding47
新闻文本分类数据集-mengkoding47 数据来源:互联网公开数据 标签:新闻文本,分类,自然语言处理,机器学习,文本挖掘,新闻报道,情感分析,数据集 数据概述: 该数据集包含了来自互联网的新闻文本数据,用于新闻文本分类任务。主要特征如下: 时间跨度:数据记录的时间范围涵盖了多个时间段,具体时间跨度取决于原始新闻数据的发布时间。... -
IBM辩论证据句子数据集IBMDebaterEvidenceSentencesDataset-kaggleqrdl
IBM辩论证据句子数据集IBMDebaterEvidenceSentencesDataset-kaggleqrdl 数据来源:互联网公开数据 标签:自然语言处理,辩论,数据集,文本分析,语义理解,证据检索,信息抽取,人工智能 数据概述: 该数据集由IBM Debater项目提供,包含从大规模文本语料库中提取的辩论相关的证据句子。主要特征如下:... -
数据2024年印度尼西亚机器学习竞赛数据集24-IndoMLDataset-pmuthulakshmi
2024年印度尼西亚机器学习竞赛数据集24-IndoMLDataset-pmuthulakshmi 数据来源:互联网公开数据 标签:机器学习,数据集,印度尼西亚,竞赛,分类,预测,自然语言处理,图像识别 数据概述: 该数据集来自2024年印度尼西亚机器学习竞赛,包含了多种类型的结构化数据和非结构化数据,用于测试和评估机器学习模型。主要特征如下:... -
印度新闻摘要数据集InshortsHindiDataTest-shivamsourav2002
印度新闻摘要数据集InshortsHindiDataTest-shivamsourav2002 数据来源:互联网公开数据 标签:新闻摘要,自然语言处理,文本分析,印度新闻,数据集,机器翻译,文本分类,信息检索 数据概述: 该数据集包含来自Inshorts平台的印度新闻摘要数据,用于文本摘要,自然语言处理等任务。主要特征如下:... -
性别歧视文本数据集SexismDataset-Text-thne1111
性别歧视文本数据集SexismDataset-Text-thne1111 数据来源:互联网公开数据 标签:性别歧视,文本分析,数据集,自然语言处理,机器学习,社会研究,情感分析,文本分类 数据概述: 该数据集包含来自公开来源的文本数据,记录了涉及性别歧视的文本内容。主要特征如下: 时间跨度:数据记录的时间范围未明确指定,涵盖不同时间段的内容。... -
大型语言模型性能评测数据集MegformerMainDataset-sinamoradi
大型语言模型性能评测数据集MegformerMainDataset-sinamoradi 数据来源:互联网公开数据 标签:自然语言处理,语言模型,数据集,模型评测,机器学习,深度学习,AI评估,技术优化 数据概述: 该数据集包含来自Megformer项目的测试数据,专门用于评估大型语言模型的性能。主要特征如下:... -
音乐评论与印尼语分析数据集ReviewSpotifyBahasaIndonesiaDataset-laodealvinrahmats
音乐评论与印尼语分析数据集ReviewSpotifyBahasaIndonesiaDataset-laodealvinrahmats 数据来源:互联网公开数据 标签:音乐评论,印尼语,数据集,自然语言处理,情感分析,音乐推荐,机器学习,多语言处理 数据概述:... -
英语-泰卢固语机器翻译数据集English-TeluguMachineTranslationDataset-krizzna69
英语-泰卢固语机器翻译数据集English-TeluguMachineTranslationDataset-krizzna69 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,数据集,语言对齐,英语,泰卢固语,文本转换,人工智能 数据概述: 该数据集包含英语和泰卢固语之间的平行文本数据,记录了两种语言之间的句子对应关系。主要特征如下:... -
音乐推荐与情感分析数据集MusicRecommendationandSentimentAnalysisDataset-habibaaaem505
音乐推荐与情感分析数据集MusicRecommendationandSentimentAnalysisDataset-habibaaaem505 数据来源:互联网公开数据 标签:音乐推荐,情感分析,数据集,数据挖掘,自然语言处理,用户行为,机器学习,音频处理 数据概述:... -
GPT4再生成大模型数据集GPT4RephrasedLLMDAIGTDataset数据集-snassimr
GPT4再生成大模型数据集GPT4RephrasedLLMDAIGTDataset数据集-snassimr 数据来源:互联网公开数据 标签:自然语言处理,数据集,机器学习,文本生成,语言模型,人工智能,深度学习,文本分析 数据概述:该数据集包含了由GPT4再生成的语言模型数据,适用于自然语言处理,文本生成等任务。主要特征如下:... -
数据2021年全球unrest推特数据集AllDaysExtractedTweetsUnrest2021-liadperetz
2021年全球unrest推特数据集AllDaysExtractedTweetsUnrest2021-liadperetz 数据来源:互联网公开数据 标签:推特数据,社会 unrest,数据集,社交媒体分析,情感分析,自然语言处理,社会研究,事件监测 数据概述: 该数据集包含2021年全球各地与社会... -
预训练标签数据集Pred-trainTagsDataset-ananyaajoshi
预训练标签数据集Pred-trainTagsDataset-ananyaajoshi 数据来源:互联网公开数据 标签:预训练,标签,数据集,自然语言处理,文本分类,信息检索,机器学习,深度学习 数据概述: 该数据集包含了用于预训练的标签数据,旨在支持各种自然语言处理任务,例如文本分类,信息检索等。主要特征如下: 时间跨度:... -
IMDB电影评论情感分析数据集IMDBReviewsSentimentAnalysisDataset-sureshvj
IMDB电影评论情感分析数据集IMDBReviewsSentimentAnalysisDataset-sureshvj 数据来源:互联网公开数据 标签:电影评论,情感分析,数据集,自然语言处理,机器学习,文本分类,数据挖掘,人工智能 数据概述:... -
北方雄狮推文数据集NorthernlionTweetsDataset-luigi595
北方雄狮推文数据集NorthernlionTweetsDataset-luigi595 数据来源:互联网公开数据 标签:推文,社交媒体,游戏,直播,数据集,文本分析,自然语言处理,社区研究 数据概述: 该数据集包含来自知名游戏主播北方雄狮(Northernlion)的推文数据,记录了其在Twitter上的公开推文内容。主要特征如下:... -
圣经与摩门教经典数据集
圣经与摩门教经典数据集 数据来源:互联网公开数据 标签:圣经,摩门教经典,文本嵌入,宗教研究,自然语言处理,文本挖掘,机器学习 数据概述: 本数据集包含了《圣经》(KJV版本)、《摩尔门经》、《教义和圣约》以及《珍珠经》的书籍、章节和经文内容。数据集近期更新,加入了基于Google genai嵌入模型(models/text-...