巴基斯坦电子商务订单数据集2016至2018-saimnasir
数据来源:互联网公开数据
标签:电子商务,巴基斯坦,交易记录,数据分析,零售业,市场研究,机器学习
数据概述:
本数据集是巴基斯坦最大的零售电子商务订单数据集,包含2016年3月至2018年8月期间的50万条交易记录。数据来源于多个电子商务商家,由研究人员收集整理,作为Alnafi(alnafi.com/zusmani)数据科学课程的结课项目发布。该数据集详细记录了巴基斯坦电子商务订单的各项信息,包括商品详情、配送方式、支付方式(如信用卡、Easy-Paisa、JazzCash、货到付款等)、商品类别(如时尚、手机、电子产品、家电等)、订单日期、SKU(库存保有单位)、价格、数量、总价和客户ID等。它是目前公开领域内关于巴基斯坦电子商务最为详细的数据集。
数据用途概述:
该数据集适用于电子商务市场研究、支付方式及订单状态分析、商品类别销售统计、时间序列分析等多种场景。研究人员可以利用此数据集探索巴基斯坦电子商务的发展趋势,识别最佳销售类别,分析支付方式与订单状态之间的关联性,预测未来的订单量、商品类别及客户数量等。对于初创企业而言,该数据集有助于理解巴基斯坦电子商务市场,把握潜在的商业机会。
数据集包含以下字段:商品ID、订单状态(已完成、取消、退款)、订单日期、SKU、价格、数量、总价、类别、支付方式、客户ID、市场价值、客户注册时间。数据集大小为101MB,文件类型为CSV。
数据预处理步骤包括:
1. 删除无关的日期/时间列及未命名列,减少噪声,提高计算效率。
2. 删除包含空值的行,确保数据质量。
3. 将“created_at”和“Customer Since”转换为日期时间格式,便于进行时间序列分析。
4. 将支付方式归类为更广泛的类别,简化数据。
5. 将订单状态归类为“已完成”、“取消”、“退款”及其他,简化数据结构。
6. 将“category_name_1”字段中的缺失值或无效值替换为默认类别“其他”。
7. 移除财务指标中的负值,确保数据逻辑一致。
8. 处理市场价值字段,确保在缺失时进行记录。
9. 重命名列以提高可读性,如“MV”重命名为“market_value”。
10. 移除“BI Status”字段中的无效条目,确保数据完整性。
该数据集的原始版本由Zeeshan-ul-hassan Usmani上传,原始链接为:https://www.kaggle.com/datasets/zusmani/pakistans-largest-ecommerce-dataset/data。