数据集 - 海数据

问答游戏节目Jeopardy-问题数据集Jeopardy-QADataset-vaibhavsxn

2025年4月26日

问答游戏节目Jeopardy-问题数据集Jeopardy-QADataset-vaibhavsxn 数据来源：互联网公开数据标签：问答游戏，数据集，自然语言处理，机器学习，知识库，娱乐，学术研究，文本分析数据概述：该数据集包含来自问答游戏节目《Jeopardy!》的问题数据，记录了节目中的各种问题及其答案。主要特征如下：...

ZIP

在线书籍完整版数据集LibrosCompletosDataset-hykevin2

2025年4月26日

在线书籍完整版数据集LibrosCompletosDataset-hykevin2 数据来源：互联网公开数据标签：书籍，数据集，文本分析，自然语言处理，文学研究，西班牙语，内容挖掘，语言模型数据概述：该数据集包含来自互联网的西班牙语在线书籍完整版数据，涵盖了各种主题和文学体裁。主要特征如下：...

ZIP

英国广播公司阿拉伯语频道YouTube视频数据集-bassetkerouche

2025年4月26日

英国广播公司阿拉伯语频道YouTube视频数据集-bassetkerouche 数据来源：互联网公开数据标签：YouTube，视频，阿拉伯语，新闻，文化，社交媒体，自然语言处理，数据集数据概述：该数据集包含了来自英国广播公司阿拉伯语频道（BBC...

ZIP

图像名称识别数据集ImageNamesDataset-psrivastava19

2025年4月26日

图像名称识别数据集ImageNamesDataset-psrivastava19 数据来源：互联网公开数据标签：图像识别，数据集，计算机视觉，图像分析，机器学习，人工智能，图像处理，自然语言处理数据概述：该数据集包含来自多种来源的图像及其相应的名称标签，主要用于图像识别和名称标注任务。主要特征如下：...

ZIP

阿姆哈拉语文本数据集AmharicDataDataset-azzaal

2025年4月26日

阿姆哈拉语文本数据集AmharicDataDataset-azzaal 数据来源：互联网公开数据标签：阿姆哈拉语，文本数据，数据集，语言处理，自然语言处理，机器学习，多语言，非洲语言数据概述：该数据集包含来自公开来源的阿姆哈拉语文本数据，记录了阿姆哈拉语的文本内容。主要特征如下：时间跨度：数据记录的时间范围不明确，可能涵盖多个时间段。...

ZIP

反馈处理命名实体识别数据集FeedbackProcessedNERDataset-huchenjiang

2025年4月26日

反馈处理命名实体识别数据集FeedbackProcessedNERDataset-huchenjiang 数据来源：互联网公开数据标签：命名实体识别，自然语言处理，数据集，文本分析，机器学习，信息提取，人工智能，数据标注数据概述：该数据集包含经过处理的反馈文本数据，专门用于命名实体识别（NER）任务。主要特征如下：时间跨度：...

ZIP

通用人工智能竞赛数据集Uni-AI-CompDataset-iwashere

2025年4月26日

通用人工智能竞赛数据集Uni-AI-CompDataset-iwashere 数据来源：互联网公开数据标签：人工智能，竞赛数据，通用AI，机器学习，数据集，算法竞赛，深度学习，自然语言处理数据概述：该数据集来自通用人工智能竞赛（Uni-AI-...

ZIP

常见拼写错误纠正数据集-therahasya00

2025年4月26日

常见拼写错误纠正数据集-therahasya00 数据来源：互联网公开数据标签：拼写纠错，自然语言处理，数据集，文本校正，语言学，机器学习，文本处理，中文数据概述：该数据集包含常见的中文拼写错误及其对应的正确词汇。主要特征如下：时间跨度：数据记录的时间范围无明确限定，持续更新和维护。地理范围：数据主要涵盖中国大陆地区常用的中文词汇和表达。...

ZIP

剧本创作脚本数据集GotScriptsDataset-rakshmithamadhevan

2025年4月26日

剧本创作脚本数据集GotScriptsDataset-rakshmithamadhevan 数据来源：互联网公开数据标签：剧本创作，数据集，文本分析，自然语言处理，机器学习，文学创作，创意写作，文化研究数据概述：该数据集包含来自got-scripts的数据，记录了大量剧本创作的详细信息和文本内容。主要特征如下：...

ZIP

巴西原住民语言词汇翻译数据集-joscaro

2025年4月26日

巴西原住民语言词汇翻译数据集-joscaro 数据来源：互联网公开数据标签：语言学，原住民语言，词汇翻译，数据集，文化研究，自然语言处理，词典编纂，巴西数据概述：该数据集包含来自巴西原住民语言的词汇及其对应的翻译。主要特征如下：时间跨度：数据记录的时间跨度取决于各语言的收集时间，涵盖不同时期。...

ZIP

个人推文数据集IndividualTweetsDataset-adityapalve

2025年4月26日

个人推文数据集IndividualTweetsDataset-adityapalve 数据来源：互联网公开数据标签：社交媒体，数据集，文本分析，情感分析，自然语言处理，机器学习，信息挖掘，大数据数据概述：该数据集包含来自Twitter平台的个人用户推文数据，记录了用户发布的推文内容及相关元信息。主要特征如下：...

ZIP

垃圾邮件分类数据集SpamMailClassificationDataset-ramyayeddla

2025年4月26日

垃圾邮件分类数据集SpamMailClassificationDataset-ramyayeddla 数据来源：互联网公开数据标签：垃圾邮件，数据集，分类算法，文本分析，机器学习，自然语言处理，信息安全，数据分析数据概述：该数据集包含来自互联网公开来源的电子邮件数据，记录了垃圾邮件和正常邮件的分类信息。主要特征如下：...

ZIP

Twitter客户服务对话数据集TwitterCustomerServiceConversationDataset-aminaslam

2025年4月26日

Twitter客户服务对话数据集TwitterCustomerServiceConversationDataset-aminaslam 数据来源：互联网公开数据标签：社交媒体，客户服务，数据集，文本分析，情感分析，自然语言处理，机器学习，数据挖掘数据概述：...

ZIP

预处理的Word2Vec词向量数据集PreprocessedWord2VecEmbeddingsDataset-louvalita

2025年4月26日

预处理的Word2Vec词向量数据集PreprocessedWord2VecEmbeddingsDataset-louvalita 数据来源：互联网公开数据标签：自然语言处理，词向量，Word2Vec，数据集，文本分析，机器学习，深度学习，语义分析数据概述：...

ZIP

恶意语言检测数据集-hiungtrung

2025年4月26日

恶意语言检测数据集-hiungtrung 数据来源：互联网公开数据标签：自然语言处理，文本分析，情感分析，机器学习，恶意内容，语言检测，数据集，NLP 数据概述：该数据集包含用于恶意语言检测的文本数据，旨在帮助开发和评估识别网络恶意内容（如辱骂，仇恨言论，威胁等）的模型。主要特征如下：时间跨度：...

ZIP

Reddit用户评论情感分析数据集RedditUserCommentsSentimentAnalysisDataset-yhx003

2025年4月26日

Reddit用户评论情感分析数据集RedditUserCommentsSentimentAnalysisDataset-yhx003 数据来源：互联网公开数据标签：社交媒体，评论分析，情感分析，自然语言处理，机器学习，文本挖掘，舆情分析，Python 数据概述：该数据集包含了来自 Reddit 平台的 500...

ZIP

光学字符识别数据集OCR-DSCTextDataset-hhhoang

2025年4月26日

光学字符识别数据集OCR-DSCTextDataset-hhhoang 数据来源：互联网公开数据标签：光学字符识别，文本数据，数据集，机器学习，图像处理，自然语言处理，计算机视觉，文档分析数据概述：该数据集专注于光学字符识别（OCR）任务，包含大量文本图像数据，用于训练和评估OCR系统的性能。主要特征如下：...

ZIP

多模态AI预测数据集

2025年4月26日

多模态AI预测数据集数据来源：互联网公开数据标签：多模态AI,加密货币,时间序列,价格预测,社交媒体分析,自然语言处理,机器学习数据概述：本数据集用于多模态AI预测任务，包含训练集和测试集两部分。训练集包括加密货币的价格数据和相关社交媒体 tweets 数据，测试集则包含相似格式的 tweets 数据及对应的价格数据。训练集：...

ZIP

多语种情感对话数据集MELD文本数据集-va6573

2025年4月26日

多语种情感对话数据集MELD文本数据集-va6573 数据来源：互联网公开数据标签：多语种，情感识别，对话分析，数据集，自然语言处理，机器学习，情感计算，文本分析数据概述：该数据集包含来自多语种情感对话（MELD）的文本数据，记录了不同语言的对话及其对应的情感标签。主要特征如下：时间跨度：数据记录的时间范围从2017年到2018年。...