Kaggle平台前10000数据集信息统计

Kaggle平台前10000数据集信息统计 数据来源:互联网公开数据 数据集名称:Kaggle热门数据集元信息汇总(Top 10,000 Datasets Metadata on Kaggle)

数据来源: 本数据集由开发者从Kaggle官方网站公开页面抓取而来,数据内容基于Kaggle社区中最受欢迎的前10,000个数据集,依据Creative Commons许可共享。

数据内容: 该数据集提供关于Kaggle平台上流行数据集的详细元信息,涵盖作者信息、文件特征、受欢迎程度和上传时间等,适用于了解数据科学趋势、探索高质量数据源和进行平台内容分析。

字段定义:

Dataset_name:数据集名称

Author_name:上传作者名称

Author_id:作者在Kaggle平台上的唯一标识

No_of_files:数据集中包含的文件数量

size:数据集总文件大小

Type_of_file:文件类型(如csv、json等)

Upvotes:该数据集获得的总点赞数

Medals:Kaggle授予的数据集奖章(如Gold、Silver、Bronze)

Usability:平台评估的数据集易用性分数

Date:数据集上传日期(年月日)

Day:上传当日对应的星期(如Monday)

Time:上传时间(24小时制)

Dataset_link:Kaggle平台上的数据集访问链接

时间范围: 数据集中数据集的上传时间跨度取决于Kaggle平台数据集上线的历史,涵盖多个年份至数据抓取时的最新状态。

数据格式: 结构化表格数据,一般为CSV格式,便于进行数据分析、可视化和平台运营研究。

更新频率: 本数据集为一次性抓取的静态快照,后续更新需基于再次抓取Kaggle网站内容。

适用场景:

探索Kaggle平台上最受欢迎的数据资源

识别流行数据类型与文件格式趋势

了解数据科学社区关注的主题与时间分布

作为推荐系统、内容评分模型的训练数据

分析数据集发布者行为与内容创作模式

标签:Kaggle,数据科学,数据平台,数据集元信息,流行趋势,内容分析,推荐系统,平台行为分析,结构化数据,

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.49 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。