NBA球员数据集1996至2024年-damirdizdarevic
数据来源:互联网公开数据
标签:NBA,球员数据,物理属性,生物信息,比赛统计,球员位置,数据分析,机器学习,教育,研究
数据概述:
本数据集包含了1996年至2024年间NBA球员的详细信息,包括物理属性(如身高、体重)、生物信息(如出生年份、国籍)、比赛统计数据(如得分、篮板、助攻等高级统计)以及球员位置等。数据集包含超过13,000名球员的信息,时间跨度长达28年。数据无缺失值,但根据具体任务,可能需要进行某些数据预处理。数据来源于nba.com和Basketball Reference网站,涵盖了从1996/97赛季到2023/24赛季的数据。
数据用途概述:
该数据集适用于多种分析和研究场景,包括探索不同位置球员的物理属性变化、分析三分球投篮数量随时间的变化趋势、研究NBA中外国球员数量的增长情况等。通过机器学习技术,可以预测球员的得分、篮板、助攻等表现数据;预测球员的比赛位置;进行球员聚类分析等。此外,数据集还适合用于NBA数据分析课程的教学和科研活动。
数据集中的球员身高和体重数据最初以英制单位(英寸、磅)给出,导致散点图中身高和体重的分布较为离散(身高约有20个不同的值,体重约有150个不同的值),对于包含13,000名球员的数据集而言,这样的分布并不理想。为了解决这个问题,创建了一个脚本,为每位球员的身高在一定范围内(例如在6-7英寸到6-8英寸之间,即200.66厘米到203.2厘米之间)随机分配一个值,同时确保80%的值落在平均值的5%到35%范围内,从而保证数据的整体完整性(整个数据集的平均身高仅增加了不到1厘米)。采用类似的方法对体重进行了处理,由于2磅的差异约为0.44千克,为每位球员的体重随机分配一个在原体重正负0.22千克范围内的值,整个数据集的平均体重变化约为0.09千克,这种变化可以忽略不计。
尽管NBA提供的数据是以英制单位给出的,这种处理方法虽然在准确性上不是最优解,但比为13,000名球员分配20个不同的身高值要好得多。