-
英语-豪萨语翻译语料库数据集English-HausaTranslationCorpusDataset-gigikenneth
英语-豪萨语翻译语料库数据集English-HausaTranslationCorpusDataset-gigikenneth 数据来源:互联网公开数据 标签:语言翻译,语料库,自然语言处理,多语言,机器翻译,文本分析,语言资源,人工智能 数据概述: 该数据集包含来自英语到豪萨语的平行语料,记录了双语文本对,适用于机器翻译和语言学研究。主要特征如下:... -
行业分类数据集-yuhua6379
行业分类数据集-yuhua6379 数据来源:互联网公开数据 标签:行业分类,数据集,文本分析,机器学习,自然语言处理,分类模型,数据挖掘,商业分析 数据概述:该数据集包含来自互联网上的行业文本数据,用于行业分类任务。主要特征如下: 时间跨度:数据记录的时间范围不定,涵盖了不同时期的行业描述和信息。... -
印地语假新闻检测数据集HindiFakeNewsDetectionDataset-sudhanshukumar344
印地语假新闻检测数据集HindiFakeNewsDetectionDataset-sudhanshukumar344 数据来源:互联网公开数据 标签:假新闻,数据集,文本分析,自然语言处理,机器学习,信息传播,社会研究,新闻学 数据概述: 该数据集包含来自互联网的印地语假新闻和真新闻的文章,适用于假新闻检测,文本分类等任务。主要特征如下:... -
印度Reddit社区内容主题分类数据集-2017至2020年
印度Reddit社区内容主题分类数据集-2017至2020年 数据来源:互联网公开数据 标签:Reddit,印度,社交媒体,文本分析,自然语言处理,内容分类,社区,标签,NLP 数据概述:... -
CommonLit阅读理解测评数据集-rohitsingh9990
CommonLit阅读理解测评数据集-rohitsingh9990 数据来源:互联网公开数据 标签:阅读理解,数据集,自然语言处理,文本分析,机器学习,教育,语言学,测评 数据概述:该数据集包含来自CommonLit平台的阅读理解测评数据,记录了学生在不同文本上的阅读理解表现。主要特征如下: 时间跨度:数据记录的时间范围不明确,但涵盖了多个学年。... -
维基百科页面信息数据集WikipediaPageInformationDataset-mugentk
维基百科页面信息数据集WikipediaPageInformationDataset-mugentk 数据来源:互联网公开数据 标签:维基百科,数据集,文本分析,自然语言处理,知识图谱,信息检索,数据挖掘,语义分析 数据概述: 该数据集包含来自维基百科的页面信息,记录了维基百科中各个页面的详细信息。主要特征如下:... -
词性标注数据集Part-of-SpeechDataset-safavieh
词性标注数据集Part-of-SpeechDataset-safavieh 数据来源:互联网公开数据 标签:自然语言处理,词性标注,数据集,文本分析,机器学习,语言学,数据挖掘,文本语料库 数据概述: 该数据集包含经过标注的文本数据,用于训练和评估词性标注模型。主要特征如下:... -
英语到阿拉伯语句子预处理清洗数据集EnglishtoArabicSentencesPreprocessedCleanedDataset-abdelrhmandemo
英语到阿拉伯语句子预处理清洗数据集EnglishtoArabicSentencesPreprocessedCleanedDataset-abdelrhmandemo 数据来源:互联网公开数据 标签:英语,阿拉伯语,数据集,自然语言处理,语言翻译,机器学习,文本分析,数据清洗... -
命名实体识别16标签数据集NamedEntityRecognitionDatasetwith16Tags-sumitv29
命名实体识别16标签数据集NamedEntityRecognitionDatasetwith16Tags-sumitv29 数据来源:互联网公开数据 标签:命名实体识别,自然语言处理,数据集,机器学习,文本分析,信息提取,语言技术,人工智能 数据概述: 该数据集包含用于命名实体识别任务的数据,记录了文本中的实体及其类别信息。主要特征如下:... -
-
唐纳德-特朗普推文数据集DonaldTrumpTweetDataset-geoclarity
唐纳德-特朗普推文数据集DonaldTrumpTweetDataset-geoclarity 数据来源:互联网公开数据 标签:社交媒体,推文,政治,数据集,文本分析,自然语言处理,舆情分析,机器学习 数据概述: 该数据集包含了唐纳德·特朗普在 Twitter 上的推文数据,记录了他在 Twitter 上的公开言论。主要特征如下:... -
CommonLit阅读理解竞赛数据集CommonLitReadabilityPrizeDataset-palajnc
CommonLit阅读理解竞赛数据集CommonLitReadabilityPrizeDataset-palajnc 数据来源:互联网公开数据 标签:阅读理解,数据集,自然语言处理,机器学习,文本分析,可读性,教育,NLP竞赛 数据概述:... -
维基媒体语言类别名称数据集WikimediaNamesbyLanguageCategoriesDataset-jamesxiwoolley
维基媒体语言类别名称数据集WikimediaNamesbyLanguageCategoriesDataset-jamesxiwoolley 数据来源:互联网公开数据 标签:维基媒体,语言类别,名称数据,数据集,文本分析,自然语言处理,多语言支持,文化研究 数据概述: 该数据集包含来自维基媒体的数据,记录了不同语言类别下的名称信息。主要特征如下:... -
情感分析数据集SentimentData1-yojn710
情感分析数据集SentimentData1-yojn710 数据来源:互联网公开数据 标签:情感分析,文本分析,数据集,自然语言处理,机器学习,情感分类,评论,NLP 数据概述: 该数据集包含了用于情感分析的文本数据,记录了不同来源的文本内容及其对应的情感标签。主要特征如下: 时间跨度: 数据记录的时间范围不特定,数据可能来自不同时期。 地理范围:... -
伊斯兰圣训文本数据集LKHadithCorpusDataset-rasikhali12
伊斯兰圣训文本数据集LKHadithCorpusDataset-rasikhali12 数据来源:互联网公开数据 标签:伊斯兰教,圣训,数据集,文本分析,宗教研究,自然语言处理,文化研究,历史文献 数据概述: 该数据集包含来自伊斯兰教圣训(Hadith)的文本数据,记录了伊斯兰教先知穆罕默德言行录的相关内容。主要特征如下:... -
乔什-麦肯尼提交数据集1JoshMckenneySubmission1Dataset-jmckenney1
乔什-麦肯尼提交数据集1JoshMckenneySubmission1Dataset-jmckenney1 数据来源:互联网公开数据 标签:数据集,提交记录,文本分析,机器学习,数据挖掘,自然语言处理,学术研究,信息检索 数据概述: 该数据集包含来自乔什·麦肯尼提交的记录数据,记录了特定提交内容的相关信息。主要特征如下:... -
英语学习文本数据集en-train-csv-elguapo
英语学习文本数据集en-train-csv-elguapo 数据来源:互联网公开数据 标签:英语学习,文本数据,自然语言处理,语言模型,数据集,语料库,机器学习,文本分析 数据概述: 该数据集包含了用于英语学习的文本数据,记录了大量的英语句子,段落及文章。主要特征如下: 时间跨度: 数据记录的时间范围不固定,涵盖了不同时期的英语文本。 地理范围:... -
瑞克与莫蒂剧本数据集RickandMortyScriptDataset-isabelgonalves
瑞克与莫蒂剧本数据集RickandMortyScriptDataset-isabelgonalves 数据来源:互联网公开数据 标签:瑞克与莫蒂,剧本,数据集,动画,喜剧,文本分析,自然语言处理,剧本分析 数据概述: 该数据集包含了瑞克与莫蒂(Rick and Morty)动画剧集的所有剧本数据,记录了每一集中的对话,场景描述等信息。主要特征如下:... -
JIRA问题追踪数据集JIRAPublicDataset-cesaranasco
JIRA问题追踪数据集JIRAPublicDataset-cesaranasco 数据来源:互联网公开数据 标签:软件工程,问题追踪,数据集,缺陷管理,项目管理,文本分析,自然语言处理,机器学习 数据概述: 该数据集包含来自JIRA的公开问题追踪数据,记录了软件开发项目中的问题,缺陷,任务等信息。主要特征如下:... -
社交媒体平台虚假新闻检测数据集
社交媒体平台虚假新闻检测数据集 数据来源:互联网公开数据 标签:虚假新闻,假新闻,新闻检测,社交媒体,Politifact,Gossipcop,文本分析,自然语言处理 数据概述:...