Kaggle平台前10000数据集信息统计

Kaggle平台前10000数据集信息统计数据来源：互联网公开数据数据集名称：Kaggle热门数据集元信息汇总（Top 10,000 Datasets Metadata on Kaggle）

数据来源：本数据集由开发者从Kaggle官方网站公开页面抓取而来，数据内容基于Kaggle社区中最受欢迎的前10,000个数据集，依据Creative Commons许可共享。

数据内容：该数据集提供关于Kaggle平台上流行数据集的详细元信息，涵盖作者信息、文件特征、受欢迎程度和上传时间等，适用于了解数据科学趋势、探索高质量数据源和进行平台内容分析。

字段定义：

Dataset_name：数据集名称

Author_name：上传作者名称

Author_id：作者在Kaggle平台上的唯一标识

No_of_files：数据集中包含的文件数量

size：数据集总文件大小

Type_of_file：文件类型（如csv、json等）

Upvotes：该数据集获得的总点赞数

Medals：Kaggle授予的数据集奖章（如Gold、Silver、Bronze）

Usability：平台评估的数据集易用性分数

Date：数据集上传日期（年月日）

Day：上传当日对应的星期（如Monday）

Time：上传时间（24小时制）

Dataset_link：Kaggle平台上的数据集访问链接

时间范围：数据集中数据集的上传时间跨度取决于Kaggle平台数据集上线的历史，涵盖多个年份至数据抓取时的最新状态。

数据格式：结构化表格数据，一般为CSV格式，便于进行数据分析、可视化和平台运营研究。

更新频率：本数据集为一次性抓取的静态快照，后续更新需基于再次抓取Kaggle网站内容。

适用场景：

探索Kaggle平台上最受欢迎的数据资源

识别流行数据类型与文件格式趋势

了解数据科学社区关注的主题与时间分布

作为推荐系统、内容评分模型的训练数据

分析数据集发布者行为与内容创作模式

标签：Kaggle,数据科学,数据平台,数据集元信息,流行趋势,内容分析,推荐系统,平台行为分析,结构化数据,

数据与资源

字段	值
版本	1.0
数据集大小	1.49 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。