-
词汇数据集Lexicon-CleanDataset-jvmchik
词汇数据集Lexicon-CleanDataset-jvmchik 数据来源:互联网公开数据 标签:语言学,词汇学,数据集,自然语言处理,文本分析,教育研究,数据清洗,语言资源 数据概述: 该数据集包含经过清洗和标准化的词汇数据,记录了多种语言的词汇信息。主要特征如下: 时间跨度:数据记录的时间范围不明确,主要为静态词汇数据。... -
维基百科电影剧情数据集WikiMoviePlotsDataset-devictor1
维基百科电影剧情数据集WikiMoviePlotsDataset-devictor1 数据来源:互联网公开数据 标签:电影,剧情,数据集,自然语言处理,文本分析,电影研究,剧情摘要,机器学习 数据概述: 该数据集包含了来自维基百科的电影剧情摘要信息,记录了大量不同电影的剧情内容。主要特征如下: 时间跨度:数据涵盖了电影制作的各个历史时期。... -
问题与答案链接数据集QuestionandAnswerURLsDataset-aniken
问题与答案链接数据集QuestionandAnswerURLsDataset-aniken 数据来源:互联网公开数据 标签:问答数据,数据集,网络爬取,文本分析,信息检索,机器学习,自然语言处理,知识图谱 数据概述: 该数据集包含来自互联网的问答数据,记录了各种问题及其对应的答案链接。主要特征如下: 时间跨度:数据记录的时间范围从近年到当前。... -
傲慢与偏见文本数据集PrideandPrejudiceCleanDataset-theeranartmeesathien
傲慢与偏见文本数据集PrideandPrejudiceCleanDataset-theeranartmeesathien 数据来源:互联网公开数据 标签:文本分析,文学作品,数据集,自然语言处理,情感分析,机器学习,英语文学,机器学习 数据概述: 该数据集包含来自《傲慢与偏见》这本经典文学作品的文本数据,记录了小说的完整内容。主要特征如下:... -
泰国身份证号码识别数据集-pharisitalee
泰国身份证号码识别数据集-pharisitalee 数据来源:互联网公开数据 标签:泰国,身份证号码,身份识别,数据集,自然语言处理,机器学习,文本分析,信息安全 数据概述: 该数据集包含泰国的身份证号码及其相关信息,用于身份识别和验证。主要特征如下: 时间跨度:数据记录的时间范围为不特定,主要为现有身份证信息。 地理范围:数据覆盖泰国全境。... -
维基百科句子数据集WikiSentencesDataset-sgedela
维基百科句子数据集WikiSentencesDataset-sgedela 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,句子,语言模型,文本分析,机器学习,语料库 数据概述:该数据集包含来自维基百科的句子数据,旨在为自然语言处理任务提供高质量的文本语料库。主要特征如下:... -
越南法律文本嵌入数据集VietnamLawTextEmbeddingDataset-trungmac
越南法律文本嵌入数据集VietnamLawTextEmbeddingDataset-trungmac 数据来源:互联网公开数据 标签:法律文本,数据集,自然语言处理,文本嵌入,越南法律,机器学习,文本分析,人工智能 数据概述: 该数据集包含来自越南法律体系的文本数据,记录了越南相关法律法规的文本内容及其对应的嵌入向量。主要特征如下:... -
字幕分析数据集SubtitleAnalysisDataset-bhagvendersingh
字幕分析数据集SubtitleAnalysisDataset-bhagvendersingh 数据来源:互联网公开数据 标签:字幕,数据集,文本分析,自然语言处理,机器学习,视频内容分析,语言学,文本挖掘 数据概述:该数据集包含来自多个视频平台的字幕数据,记录了不同视频内容的字幕文本,适用于文本分析,自然语言处理等任务。主要特征如下:... -
中文分词数据集Word-SegmentedDatasetfrom01Janto03-ictunivers
中文分词数据集Word-SegmentedDatasetfrom01Janto03-ictunivers 数据来源:互联网公开数据 标签:自然语言处理,中文分词,数据集,文本分析,机器学习,语言处理,NLP,中文处理 数据概述: 该数据集包含中文文本的分词数据,记录了从01月01日到03月31日之间的中文文本的分词结果。主要特征如下:... -
-
招聘信息文本分析数据集-harsh221upadhyay
招聘信息文本分析数据集-harsh221upadhyay 数据来源:互联网公开数据 标签:招聘,职位描述,自然语言处理,文本分析,机器学习,行业分析,人才市场,数据挖掘 数据概述: 该数据集包含了来自互联网的招聘信息文本数据,主要记录了各类职位的详细描述。主要特征如下: 时间跨度: 数据记录的时间范围为近期,具体时间跨度取决于数据来源的更新频率。... -
手写文字识别数据集Hand-writingRecognitionDataset-shilpagunwant
手写文字识别数据集Hand-writingRecognitionDataset-shilpagunwant 数据来源:互联网公开数据 标签:手写文字,数据集,图像识别,机器学习,模式识别,文本分析,计算机视觉,人工智能 数据概述:该数据集包含手写文字图像数据,用于训练和评估手写文字识别模型。主要特征如下:... -
服装商店聊天机器人数据集-quangnguyen711
服装商店聊天机器人数据集-quangnguyen711 数据来源:互联网公开数据 标签:聊天机器人,服装,数据集,自然语言处理,文本分析,客户服务,机器学习,对话系统 数据概述: 该数据集包含服装商店聊天机器人的对话记录,记录了用户与聊天机器人之间的互动,旨在用于训练和评估聊天机器人的性能。主要特征如下:... -
印地语音译数据集HindiTransliterationDataset-omkartupe
印地语音译数据集HindiTransliterationDataset-omkartupe 数据来源:互联网公开数据 标签:印地语,音译,数据集,语言处理,机器学习,文本分析,自然语言处理,语音识别 数据概述: 该数据集包含印地语单词的音译数据,记录了印地语单词及其对应的罗马音译版本。主要特征如下:... -
官方执行与立法机构公告数据集OfficialExecutiveandLegislativeAnnouncementsDataset-dadosabertosdefeira
官方执行与立法机构公告数据集OfficialExecutiveandLegislativeAnnouncementsDataset-dadosabertosdefeira 数据来源:互联网公开数据 标签:政府公告,数据集,政治研究,文本分析,机器学习,政策分析,公共管理,法律研究 数据概述:... -
网络欺凌推文数据集CyberBullyingTweetsDataset-madhubalaji
网络欺凌推文数据集CyberBullyingTweetsDataset-madhubalaji 数据来源:互联网公开数据 标签:网络欺凌,社交媒体,数据集,文本分析,情感分析,机器学习,网络安全,数据挖掘 数据概述: 该数据集包含来自社交媒体平台推文数据,记录了与网络欺凌相关的内容。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2022年。... -
英语语言成绩数据集-nourelhwaryy
英语语言成绩数据集-nourelhwaryy 数据来源:互联网公开数据 标签:英语成绩,语言学习,数据集,教育评估,文本分析,机器学习,学生表现,语言能力 数据概述:该数据集包含学生的英语语言成绩数据,记录了学生在不同英语语言考试中的表现。主要特征如下: 时间跨度:数据记录的时间范围涵盖了多个学年。 地理范围:数据主要来自英语学习相关的地区或机构。... -
推特过滤数据集TwitterFilteredDataset-kaggledatasettbd
推特过滤数据集TwitterFilteredDataset-kaggledatasettbd 数据来源:互联网公开数据 标签:社交媒体,推特,数据集,文本分析,自然语言处理,情感分析,机器学习,舆情分析 数据概述: 该数据集包含经过过滤的推特(Twitter)数据,旨在为文本分析和自然语言处理任务提供支持。主要特征如下:... -
多选题数据集-肖恩MCQ-Shaun-shaunshibu
多选题数据集-肖恩MCQ-Shaun-shaunshibu 数据来源:互联网公开数据 标签:多选题,数据集,教育,考试,机器学习,自然语言处理,文本分析,认知科学 数据概述: 该数据集包含来自肖恩(Shaun)的多选题数据,主要用于评估和分析多选题的生成,解答和评估过程。主要特征如下: 时间跨度: 数据记录的时间范围不明确,取决于原始数据的收集时间。... -
推特机器人检测数据集TwitterBotsDetectionDataset-alyalsayed
推特机器人检测数据集TwitterBotsDetectionDataset-alyalsayed 数据来源:互联网公开数据 标签:社交媒体,机器人检测,数据集,自然语言处理,机器学习,文本分析,人工智能,舆情分析 数据概述: 该数据集包含了来自推特平台的用户数据,旨在用于推特机器人(Twitter Bots)的检测与分析。主要特征如下:...