亚马逊产品长度预测数据集-2023-sarthakkapaliya
数据来源:互联网公开数据
标签:亚马逊,产品预测,长度维度,机器学习,产品数据,物流,仓储,顾客评估
数据概述:
本数据集包含220多万个产品(2.2百万)的元数据信息,旨在用于训练和测试机器学习模型以预测产品的长度维度。产品长度是亚马逊仓库中高效包装和存储产品的重要因素。此外,产品长度也是客户在购买前评估产品大小的重要属性。手动测量大量产品的长度既耗时又容易出错,因此利用机器学习模型进行预测具有重要意义。
数据集包含以下文件:
- train.csv:2249698行 x 6列
- test.csv:734736行 x 5列
- sample_submission.csv:734736行 x 2列
数据集的列字段描述如下:
- PRODUCT_ID:产品唯一标识符
- TITLE:产品标题
- DESCRIPTION:产品描述
- BULLET_POINTS:产品要点描述
- PRODUCT_TYPE_ID:产品类型标识符
- PRODUCT_LENGTH:产品长度(仅在train.csv中提供)
数据用途概述:
该数据集适用于开发用于预测产品长度的机器学习模型。这些模型可以应用于物流和仓储管理,优化产品包装和存储;同时也有助于顾客在购买前更好地评估产品大小。此外,该数据集还可以用于研究机器学习在产品数据预测中的应用,为相关领域的研究提供有价值的数据支持。
评估指标:
预测结果的评估指标为:
score = max( 0 , 100*(1-metrics.mean_absolute_percentage_error(actual,predicted)))
结果提交指南:
- 提交文件的索引应为“PRODUCT_ID”,目标列为“PRODUCT_LENGTH”。
- 提交文件格式必须为.csv格式,且文件大小应为734736行 x 2列。
- 确保提交文件中的索引值与test.csv中的索引值一致。
- 提交文件的列名应与sample_submission.csv中的列名一致。