在线零售II数据集-客户行为与销售分析-2009-2011
数据来源:互联网公开数据
标签:在线零售, 商品交易, 客户行为, 时间序列, 数据清洗, 数据分析, 商业智能
数据概述
本数据集来源于 UCI 机器学习库,标题为“Online Retail II Data Set”,由 Dr. Daqing Chen 于 2019 年捐赠。该数据集包含了 2009 年 12 月 1 日至 2011 年 12 月 9 日期间,一家位于英国的非实体店在线零售商的所有交易记录。这家公司的主要产品是独特的礼品,许多客户为批发商。数据集在 2015 年捐赠的“Online Retail Data Set”基础上新增了一年的交易数据,时间跨度为 2009 年 12 月 1 日至 2010 年 12 月 9 日。数据已被转换为 .csv 格式,便于使用和高效加载。
数据字段定义
1. InvoiceNo(发票编号)
- 类型:字符串(Nominal)
- 描述:每个交易的唯一发票编号,由 6 位数字组成。如果发票编号以字母 'C' 开头,则表示该交易被取消。
- StockCode(商品代码)
- 类型:字符串(Nominal)
-
描述:每个商品的唯一代码,由 5 位数字表示,用于标识不同的商品。
-
Description(商品描述)
- 类型:字符串(Nominal)
-
描述:商品的名称或描述信息。
-
Quantity(数量)
- 类型:数值(Numeric)
-
描述:每笔交易中商品的数量。
-
InvoiceDate(发票日期)
- 类型:数值(Numeric)
-
描述:交易生成的日期和时间。
-
UnitPrice(单价)
- 类型:数值(Numeric)
-
描述:商品的单价,以英镑(£)为单位。
-
CustomerID(客户编号)
- 类型:字符串(Nominal)
-
描述:每个客户的唯一标识符,由 5 位数字表示。
-
Country(国家)
- 类型:字符串(Nominal)
- 描述:客户所在的国家名称。
数据用途概述
本数据集适用于多种商业智能和数据分析场景,主要包括但不限于以下用途:
- 客户行为分析
-
研究客户购买行为,例如购买频率、购买金额分布、客户流失情况等。
-
销售趋势分析
-
通过时间序列分析,识别销售高峰期、季节性变化以及长期销售趋势。
-
商品性能评估
-
分析不同商品的销售表现,包括销量、单价、退货率等,帮助优化库存管理和产品策略。
-
市场细分与客户分群
-
基于客户购买行为和国家信息,对客户进行分群,为精准营销和个性化推荐提供支持。
-
数据清洗与预处理实践
-
数据集包含缺失值、异常值和重复记录,是学习数据清洗和预处理技能的理想素材。
-
商业决策支持
- 帮助企业制定促销策略、定价策略和供应链优化方案,提升运营效率和盈利能力。
数据特点
- 时间跨度:数据涵盖了 2009 年 12 月 1 日至 2011 年 12 月 9 日,包含约 2 年的交易记录。
- 数据规模:数据量较大,包含数万条交易记录,适合进行大规模数据分析。
- 数据质量:数据中存在缺失值、异常值和重复记录,需要进行数据清洗和预处理。
- 应用广泛:适用于零售行业的多种分析场景,如客户行为分析、销售策略制定和市场研究等。
数据来源与致谢
数据集来源于 UCI 机器学习库(http://archive.ics.uci.edu/ml/datasets/Online+Retail+II),由 Dr. Daqing Chen 提供。Dr. Daqing Chen 是伦敦南岸大学数据科学硕士课程的负责人,联系邮箱为 chend '@' lsbu.ac.uk。
注意事项
- 数据中的发票编号以 'C' 开头的表示交易被取消,需在分析时特别注意。
- 数据集中的客户编号和商品代码可能包含缺失值,需进行数据清洗。
- 数据中的国家信息可能涉及隐私,使用时应遵守相关法律法规。
适用场景
- 学术研究:用于教学和研究,如数据清洗、特征工程、时间序列分析等。
- 企业应用:适用于零售企业,支持销售预测、客户管理、库存优化等业务决策。
- 数据科学培训:作为数据科学初学者的学习素材,帮助提升数据处理和分析能力。