印度零售商品价格预测数据集-招聘挑战赛-2020年-hotsonhonet
数据来源:互联网公开数据
标签:零售,价格预测,机器学习,数据科学,招聘,商业分析,时间序列,回归分析
数据概述:
本数据集旨在支持一项印度零售商品价格预测的招聘挑战赛。数据集包含来自不同类别的零售商品的价格信息,旨在帮助数据科学家们构建预测模型,从而解决招聘者在筛选合适人才时遇到的困难。数据集包含训练集(Train.csv)和测试集(Test.csv),以及一个样本提交文件(Sample Submission.csv)。
训练集(Train.csv)包含284780行数据,8个字段,用于模型训练。测试集(Test.csv)包含122049行数据,7个字段,用于模型评估。
字段描述:
InvoiceNo(发票号):发票ID,经过标签编码。
StockCode(商品代码):每个商品的唯一代码,经过标签编码。
Description(商品描述):商品的描述信息,经过标签编码。
Quantity(数量):购买的数量。
InvoiceDate(发票日期):购买日期。
UnitPrice(单价):目标值,每个商品的价格。
CustomerID(客户ID):每个客户的唯一标识符。
Country(国家):销售的国家,经过标签编码。
数据用途概述:
该数据集主要用于机器学习模型的构建和评估,特别是多元回归模型。参与者可以通过构建模型来预测零售商品的价格,并参与数据科学领域的招聘活动。数据集可用于探索性数据分析、特征工程、模型训练和评估,以及优化模型以在未见数据上获得良好的泛化能力。通过参与此数据集相关的挑战,参与者可以展示其数据科学技能,并有机会获得数据科学家职位。