数据集 - 海数据

词汇数据集Lexicon-CleanDataset-jvmchik

2025年4月24日

词汇数据集Lexicon-CleanDataset-jvmchik 数据来源：互联网公开数据标签：语言学，词汇学，数据集，自然语言处理，文本分析，教育研究，数据清洗，语言资源数据概述：该数据集包含经过清洗和标准化的词汇数据，记录了多种语言的词汇信息。主要特征如下：时间跨度：数据记录的时间范围不明确，主要为静态词汇数据。...

ZIP

维基百科电影剧情数据集WikiMoviePlotsDataset-devictor1

2025年4月24日

维基百科电影剧情数据集WikiMoviePlotsDataset-devictor1 数据来源：互联网公开数据标签：电影，剧情，数据集，自然语言处理，文本分析，电影研究，剧情摘要，机器学习数据概述：该数据集包含了来自维基百科的电影剧情摘要信息，记录了大量不同电影的剧情内容。主要特征如下：时间跨度：数据涵盖了电影制作的各个历史时期。...

ZIP

问题与答案链接数据集QuestionandAnswerURLsDataset-aniken

2025年4月24日

问题与答案链接数据集QuestionandAnswerURLsDataset-aniken 数据来源：互联网公开数据标签：问答数据，数据集，网络爬取，文本分析，信息检索，机器学习，自然语言处理，知识图谱数据概述：该数据集包含来自互联网的问答数据，记录了各种问题及其对应的答案链接。主要特征如下：时间跨度：数据记录的时间范围从近年到当前。...

ZIP

傲慢与偏见文本数据集PrideandPrejudiceCleanDataset-theeranartmeesathien

2025年4月24日

傲慢与偏见文本数据集PrideandPrejudiceCleanDataset-theeranartmeesathien 数据来源：互联网公开数据标签：文本分析，文学作品，数据集，自然语言处理，情感分析，机器学习，英语文学，机器学习数据概述：该数据集包含来自《傲慢与偏见》这本经典文学作品的文本数据，记录了小说的完整内容。主要特征如下：...

ZIP

泰国身份证号码识别数据集-pharisitalee

2025年4月24日

泰国身份证号码识别数据集-pharisitalee 数据来源：互联网公开数据标签：泰国，身份证号码，身份识别，数据集，自然语言处理，机器学习，文本分析，信息安全数据概述：该数据集包含泰国的身份证号码及其相关信息，用于身份识别和验证。主要特征如下：时间跨度：数据记录的时间范围为不特定，主要为现有身份证信息。地理范围：数据覆盖泰国全境。...

ZIP

维基百科句子数据集WikiSentencesDataset-sgedela

2025年4月24日

维基百科句子数据集WikiSentencesDataset-sgedela 数据来源：互联网公开数据标签：自然语言处理，文本数据，数据集，句子，语言模型，文本分析，机器学习，语料库数据概述：该数据集包含来自维基百科的句子数据，旨在为自然语言处理任务提供高质量的文本语料库。主要特征如下：...

ZIP

越南法律文本嵌入数据集VietnamLawTextEmbeddingDataset-trungmac

2025年4月24日

越南法律文本嵌入数据集VietnamLawTextEmbeddingDataset-trungmac 数据来源：互联网公开数据标签：法律文本，数据集，自然语言处理，文本嵌入，越南法律，机器学习，文本分析，人工智能数据概述：该数据集包含来自越南法律体系的文本数据，记录了越南相关法律法规的文本内容及其对应的嵌入向量。主要特征如下：...

ZIP

字幕分析数据集SubtitleAnalysisDataset-bhagvendersingh

2025年4月24日

字幕分析数据集SubtitleAnalysisDataset-bhagvendersingh 数据来源：互联网公开数据标签：字幕，数据集，文本分析，自然语言处理，机器学习，视频内容分析，语言学，文本挖掘数据概述：该数据集包含来自多个视频平台的字幕数据，记录了不同视频内容的字幕文本，适用于文本分析，自然语言处理等任务。主要特征如下：...

ZIP

中文分词数据集Word-SegmentedDatasetfrom01Janto03-ictunivers

2025年4月24日

中文分词数据集Word-SegmentedDatasetfrom01Janto03-ictunivers 数据来源：互联网公开数据标签：自然语言处理，中文分词，数据集，文本分析，机器学习，语言处理，NLP，中文处理数据概述：该数据集包含中文文本的分词数据，记录了从01月01日到03月31日之间的中文文本的分词结果。主要特征如下：...

ZIP

药物评论情感分析数据集

2025年4月24日

药物评论情感分析数据集数据来源：互联网公开数据标签：药物评论,情感分析,自然语言处理,机器学习,分类模型,文本分析,用户反馈数据概述：...

ZIP

招聘信息文本分析数据集-harsh221upadhyay

2025年4月24日

招聘信息文本分析数据集-harsh221upadhyay 数据来源：互联网公开数据标签：招聘，职位描述，自然语言处理，文本分析，机器学习，行业分析，人才市场，数据挖掘数据概述：该数据集包含了来自互联网的招聘信息文本数据，主要记录了各类职位的详细描述。主要特征如下：时间跨度：数据记录的时间范围为近期，具体时间跨度取决于数据来源的更新频率。...

ZIP

手写文字识别数据集Hand-writingRecognitionDataset-shilpagunwant

2025年4月24日

手写文字识别数据集Hand-writingRecognitionDataset-shilpagunwant 数据来源：互联网公开数据标签：手写文字，数据集，图像识别，机器学习，模式识别，文本分析，计算机视觉，人工智能数据概述：该数据集包含手写文字图像数据，用于训练和评估手写文字识别模型。主要特征如下：...

ZIP

服装商店聊天机器人数据集-quangnguyen711

2025年4月24日

服装商店聊天机器人数据集-quangnguyen711 数据来源：互联网公开数据标签：聊天机器人，服装，数据集，自然语言处理，文本分析，客户服务，机器学习，对话系统数据概述：该数据集包含服装商店聊天机器人的对话记录，记录了用户与聊天机器人之间的互动，旨在用于训练和评估聊天机器人的性能。主要特征如下：...

ZIP

印地语音译数据集HindiTransliterationDataset-omkartupe

2025年4月24日

印地语音译数据集HindiTransliterationDataset-omkartupe 数据来源：互联网公开数据标签：印地语，音译，数据集，语言处理，机器学习，文本分析，自然语言处理，语音识别数据概述：该数据集包含印地语单词的音译数据，记录了印地语单词及其对应的罗马音译版本。主要特征如下：...

ZIP

官方执行与立法机构公告数据集OfficialExecutiveandLegislativeAnnouncementsDataset-dadosabertosdefeira

2025年4月24日

官方执行与立法机构公告数据集OfficialExecutiveandLegislativeAnnouncementsDataset-dadosabertosdefeira 数据来源：互联网公开数据标签：政府公告，数据集，政治研究，文本分析，机器学习，政策分析，公共管理，法律研究数据概述：...

ZIP

网络欺凌推文数据集CyberBullyingTweetsDataset-madhubalaji

2025年4月24日

网络欺凌推文数据集CyberBullyingTweetsDataset-madhubalaji 数据来源：互联网公开数据标签：网络欺凌，社交媒体，数据集，文本分析，情感分析，机器学习，网络安全，数据挖掘数据概述：该数据集包含来自社交媒体平台推文数据，记录了与网络欺凌相关的内容。主要特征如下：时间跨度：数据记录的时间范围从2010年到2022年。...

ZIP

英语语言成绩数据集-nourelhwaryy

2025年4月24日

英语语言成绩数据集-nourelhwaryy 数据来源：互联网公开数据标签：英语成绩，语言学习，数据集，教育评估，文本分析，机器学习，学生表现，语言能力数据概述：该数据集包含学生的英语语言成绩数据，记录了学生在不同英语语言考试中的表现。主要特征如下：时间跨度：数据记录的时间范围涵盖了多个学年。地理范围：数据主要来自英语学习相关的地区或机构。...

ZIP

推特过滤数据集TwitterFilteredDataset-kaggledatasettbd

2025年4月24日

推特过滤数据集TwitterFilteredDataset-kaggledatasettbd 数据来源：互联网公开数据标签：社交媒体，推特，数据集，文本分析，自然语言处理，情感分析，机器学习，舆情分析数据概述：该数据集包含经过过滤的推特（Twitter）数据，旨在为文本分析和自然语言处理任务提供支持。主要特征如下：...

ZIP

多选题数据集-肖恩MCQ-Shaun-shaunshibu

2025年4月24日

多选题数据集-肖恩MCQ-Shaun-shaunshibu 数据来源：互联网公开数据标签：多选题，数据集，教育，考试，机器学习，自然语言处理，文本分析，认知科学数据概述：该数据集包含来自肖恩（Shaun）的多选题数据，主要用于评估和分析多选题的生成，解答和评估过程。主要特征如下：时间跨度：数据记录的时间范围不明确，取决于原始数据的收集时间。...

ZIP

推特机器人检测数据集TwitterBotsDetectionDataset-alyalsayed

2025年4月24日

推特机器人检测数据集TwitterBotsDetectionDataset-alyalsayed 数据来源：互联网公开数据标签：社交媒体，机器人检测，数据集，自然语言处理，机器学习，文本分析，人工智能，舆情分析数据概述：该数据集包含了来自推特平台的用户数据，旨在用于推特机器人（Twitter Bots）的检测与分析。主要特征如下：...

ZIP

找到5,735个数据集

注册成功！