使用监督和无监督学习模型分析二手车销售数据
二手车市场是一个动态且非常复杂的领域,受不同标准的影响 - 制造商、车型、发动机规格、油耗、生产年份、里程和价格。在本练习中,我们将查看包含英国二手车销售事实的模拟数据。该数据由 50,000 条不同的记录组成,这些记录单独描述了汽车销售交易。通过利用监督学习和无监督学习,我们计划对数据集进行分析。该分析将通过回归模型以及聚类模式识别来促进汽车价格预测。
单数值输入特征回归模型
我们开始使用回归模型预测每个数值输入因素(如里程、车辆大小等)的汽车价格。然后分析汽车价格等变量与发动机尺寸、车型年份和里程等数值因素之间的关联。我们发现发动机尺寸是与汽车价格关系最密切的变量,这证明它是最强大的驱动因素。虽然线性模型适用于制造年份,但其他更复杂的特征(如发动机尺寸)需要非线性模型,以便准确检测它们的相互作用和价格波动。
多数值输入特征回归模型
通过在估计价格预测的准确性时结合多个数值输入参数,进一步扩展了分析。与单输入特征模型相比,使用汽车制造年份和行驶里程数等额外用途合理地提高了预测性能。这种研究影响汽车价格的众多变量的整体方法通过同时考虑多种因素,凸显了使用预测模型的重要性。
带分类变量的回归模型
为了扩展我们的预测模型,我们考虑了分类变量,并在回归中添加了制造商和模型的属性。这提高了算法的有效性 理论 更多道路 更少交通路口 道路建设应考虑道路交通 道路之间的交通分布以及交通路口 更繁忙的街道 更少的交通 更少的路口
人工神经网络(ANN)模型
为了实现这一目标,我们实施了人工神经网络 (ANN) 模型。与其他监督学习模型相比,ANN 表现出了极具竞争力的性能,这可以归因于它能够从数据集中学习非常复杂的关系。为了获得最佳结果,我们对 ANN 的架构和超参数进行了彻底的调整,以展示其在处理复杂数据集方面的灵活性和有效性。
模型比较和结论
经过综合评估,发现随机森林回归或模型是预测汽车价格最有效的模型。它结合了数值和分类变量,并显示出强大的预测能力,使其成为首选。给出了评估指标和可视化,全面展示了模型的性能,并帮助我们得出结论:随机森林回归或更好。
k-Means 聚类算法
谈到无监督学习,我们采用 k-Means 聚类算法来检测汽车销售数据集中的聚类。分批更改输入特征变量空间,我们使用轮廓分数的评估指标确定聚类数 (k)。发动机尺寸、制造年份和里程数等变量对于获得最理想的聚类似乎至关重要,这强调了它们在分割数据集方面的重要性。
与其他聚类算法的比较
最后,我们观察了 k-Means 聚类技术的结果,并增加了其他聚类技术(例如 DBSCAN 和层次聚类)的成功。通过对每种方法的严格标题进行评估,我们评估了对数据集的性能,确定了聚类中的有效方法。就像 k-Means 取得了有希望的结果一样,DBSCAN 为我们提供了进一步扩展的基础,通过与 DBSCAN 等其他算法进行比较并强调应该考虑几种算法进行聚类。
结论
最后,我们对二手车销售数据的广泛讨论表明,监督学习和无监督学习技术对于通过回归模型和一些聚类算法理解信息具有良好的效果,我们能够丰富对影响汽车价格的主要因素和数据集的详细部分的理解。我们认为,进一步的主要研究将涵盖更多的机器学习技术、使用额外的数据集来改进它,以及在汽车行业开发更有效的具有良好聚类质量的算法。