数据集 - 海数据

数据准备编码数据集

2025年4月14日

数据准备编码数据集数据来源：互联网公开数据标签：数据准备,编码,数据清洗,数据预处理,机器学习,人工智能数据概述：本数据集提供了经过初步处理、适合进一步编码的数据。数据已经进行了基本的清洗和预处理，包括处理缺失值、异常值以及数据格式的统一，旨在为后续的编码和分析提供一个良好的起点。数据用途概述：...

ZIP

动漫详情与分类分析数据集

2025年4月14日

动漫详情与分类分析数据集数据来源：互联网公开数据标签：动漫,分类,推荐系统,行业分析,数据清洗,数据整合数据概述：本数据集整合了来自MyAnimeList（MAL）和Jikan API的动漫相关信息，包含动漫详情、分类标签及其关联信息。数据集分为四个部分： 1. manga.csv - 包含动漫的基本信息，如标题、类型、评分、上映时间等。 2....

ZIP

反LGBT网络欺凌文本数据集2022

2025年4月14日

反LGBT网络欺凌文本数据集2022 数据来源：互联网公开数据标签：LGBT,网络欺凌,文本数据,机器学习,二分类,社交媒体数据概述：...

ZIP

阿拉戈斯州坎波阿莱格雷市市政厅工资数据集2021

2025年4月14日

阿拉戈斯州坎波阿莱格雷市市政厅工资数据集2021 数据来源：互联网公开数据标签：市政厅,工资,公共员工,数据挖掘,网络爬虫,R语言,巴西,阿拉戈斯州数据概述：...

ZIP

机器学习模型特征工程实验数据集

2025年4月14日

机器学习模型特征工程实验数据集数据来源：互联网公开数据标签：机器学习,特征工程,模型优化,数据集生成,实验研究数据概述：...

ZIP

法国驻韩大使馆新闻数据集

2025年4月14日

法国驻韩大使馆新闻数据集数据来源：互联网公开数据标签：法国驻韩大使馆,新闻聚合,公开数据,缺失值,历史新闻,韩法关系数据概述：本数据集包含法国驻韩大使馆发布的新闻聚合信息，涵盖多个年份的历史新闻记录。数据字段主要包括新闻标题、内容文本、发布时间、相关链接等。由于部分新闻内容已失效（HTTP...

ZIP

电影推荐系统构建数据集-电影信息与用户互动数据-时间跨度不限

2025年4月14日

电影推荐系统构建数据集-电影信息与用户互动数据-时间跨度不限数据来源：互联网公开数据标签：电影,推荐系统,数据清洗,EDA,特征工程,机器学习,用户行为,电影信息,流行度分析,电影评论数据概述：...

ZIP

印度尼西亚邮件分类数据集2023

2025年4月14日

印度尼西亚邮件分类数据集2023 数据来源：互联网公开数据标签：邮件分类,认知服务,Text Analytics,Content Moderator,事件触发,ETL,逻辑应用,Google Drive,Kaggle 数据概述：...

ZIP

CORD19任务1笔记本分析数据集2020-05

2025年4月14日

CORD19任务1笔记本分析数据集2020-05 数据来源：互联网公开数据标签：CORD19,笔记本分析,文献回顾,数据分析,链接匹配,表格统计数据概述：...

ZIP

图书馆用户验证数据集

2025年4月14日

图书馆用户验证数据集数据来源：互联网公开数据标签：图书馆,用户验证,数据清理,联系信息,数据整合,用户管理,数据缺失数据概述：...

ZIP

文件-测试链接回归测试数据集

2025年4月14日

文件-测试链接回归测试数据集数据来源：互联网公开数据标签：软件工程,持续集成,文件测试链接,回归测试,数据挖掘,版本控制,金融行业,代码分析数据概述：...

ZIP

塔布阿特市降雨和气温数据集

2025年4月14日

塔布阿特市降雨和气温数据集数据来源：互联网公开数据标签：降雨量,气温,塔布阿特,圣保罗州,巴西,气象数据,数据科学数据概述：...

ZIP

葡萄牙语文本到SQL查询生成数据集2023

2025年4月14日

葡萄牙语文本到SQL查询生成数据集2023 数据来源：互联网公开数据标签：葡萄牙语,文本到SQL,自然语言处理,机器学习,数据库数据概述：本数据集是b-mc2/sql-create-context数据集的葡萄牙语翻译版本，基于WikiSQL和Spider数据集构建。数据集包含了葡萄牙语问题、SQL CREATE...

ZIP

GCMS验证数据集

2025年4月14日

GCMS验证数据集数据来源：互联网公开数据标签：GCMS,气相色谱质谱联用,数据验证,化学分析,质量控制,实验室检测,标准方法数据概述：...

ZIP

宠物收养平台宠物信息及领养预测数据集

2025年4月14日

宠物收养平台宠物信息及领养预测数据集数据来源：互联网公开数据标签：宠物,收养,领养预测,动物福利,宠物信息,机器学习,数据分析,分类数据概述：...

ZIP

孟加拉语动词理解数据集

2025年4月14日

孟加拉语动词理解数据集数据来源：互联网公开数据标签：孟加拉语,动词,词根映射,词性标注,自然语言处理,语境分析,形态学分析数据概述...

ZIP

财富500公司IT相关知识项数据集

2025年4月14日

财富500公司IT相关知识项数据集数据来源：互联网公开数据标签：IT知识项,财富500,知识管理,数据生成,模型训练,教育培训数据概述：本数据集包含100条合成生成的知识项，这些知识项模拟了典型财富500强公司知识库中的内容。数据集于2024年5月28日使用Meta的Llama 3 70b模型通过Perplexity...

ZIP

Goodreads书籍样本数据清洗与整理数据集

2025年4月14日

Goodreads书籍样本数据清洗与整理数据集数据来源：互联网公开数据标签：书籍,Goodreads,数据清洗,文本分析,图书推荐,Python,数据整理数据概述：...

ZIP

PDF数据分析数据集

2025年4月14日

PDF数据分析数据集数据来源：互联网公开数据标签：PDF分析,文本提取,数据处理,自然语言处理,机器学习,文档分析,信息提取数据概述：本数据集包含了一系列PDF文档，以及对这些文档进行分析后提取的数据。数据集涵盖了文档的基本信息、文本内容、关键词、结构化数据等关键要素，为研究PDF文档的内容和结构提供了基础。数据用途概述：...

ZIP

LLM提示恢复合成数据集

2025年4月14日

LLM提示恢复合成数据集数据来源：互联网公开数据标签：LLM,提示恢复,合成数据,自然语言处理,人工智能,机器学习,数据竞赛数据概述：本数据集使用Gemma 7B-IT生成了1000个示例，用于LLM提示恢复竞赛。数据集基于@thedrcat的原始数据集进行扩展，包含两个额外的列：一是Gemma 7B-IT生成的原始输出，二是去除“Sure…...

ZIP

找到2,381个数据集

注册成功！