数据集描述
该数据集包含危地马拉规模最大、历史最悠久的彩票Lotería Santa Lucía的历史数据。该数据集经过手动提取和转换,提供有关彩票抽奖、奖品和获奖者的清晰、结构化且易于分析的信息。它旨在支持统计分析、可视化和机器学习研究。
数据集结构
该数据集由两个主要的 CSV 文件组成:
sorteos.csv- 包含每次彩票抽奖的元数据:
列:
numero_sorteo:唯一的抽奖号码。
tipo_sorteo:抽奖类型(例如,普通或非常)。
fecha_sorteo:抽奖日期。
fecha_caducidad:领取奖品的截止日期。
primer_premio、segundo_premio、tercer_premio:前三名奖金金额。
reintegro_primer_premio、reintegro_segundo_premio、reintegro_tercer_premio:前三名的退款号码。
premios.csv- 包含每次抽奖的详细奖品信息:
列:
numero_sorteo:与奖品相关的抽奖号码。
numero_premiado:中奖彩票号码。
letras:奖项类别(例如,“P”代表奖项,“TT”代表三重终止)。
monto:奖金金额。
vendedor:中奖彩票的卖家。
ciudad:售出机票的城市。
departamento:售出机票的部门。
亮点:
时间范围:涵盖 2024 年 6 月至 2025 年 1 月的数据。(我将每周更新此数据集)
粒度:包括元数据(抽奖详情)和奖金分配(单张彩票信息)。
独特见解:
中奖号码模式分析。
奖品和门票销售的地理分布。
卖家表现和最常见的奖项类别。
潜在用途:
该数据集可用于各种分析和研究目的,包括:
奖金分布的统计分析。
中奖彩票的地理分析。
建立中奖号码的预测模型。
探索卖家表现和门票销售的模式。
数据收集和转换
提取:使用 Selenium 从 Lotería Santa Lucía 官方网站手动抓取数据。
转换:使用 Pandas 清理、构造和丰富原始数据。
加载:最终的数据集经过验证并导出为 CSV 文件以方便使用。
许可
该数据集根据MIT 许可证发布,允许免费用于个人、学术和商业目的,要给予适当的归属。