纽约市出租车费用预测挑战数据集-训练与测试数据-2021-madhavkumarchoudhary
数据来源:互联网公开数据
标签:出租车,费用预测,纽约市,交通,数据挑战,机器学习,预测模型
数据概述:
本数据集提供了构建预测模型的机会,旨在估算出租车乘客为每次行程支付的总金额。数据集包含一个训练集,其中包含目标变量“total_amount”以及各种有助于预测的特征属性。参赛者被要求创建准确的预测模型。
数据包含以下文件:
train.csv: 训练集,包括目标变量“total_amount”以及相关特征属性。
test.csv: 测试集,包含与训练集相似的特征属性,但不包含目标变量“total_amount”,因为这是需要预测的变量。
sample_submission.csv: 提供了一个格式正确的示例提交文件,用于提交比赛结果。
数据字段描述:
数据集包含多个字段,每个字段提供了对出租车行程的有价值的见解。主要字段包括:
total_amount: 乘客为出租车行程支付的总金额。
VendorID: 出租车供应商的标识符。
tpep_pickup_datetime 和 tpep_dropoff_datetime: 表示行程开始和结束时间的时间戳。
passenger_count: 行程期间的乘客数量。
trip_distance: 行程中行驶的距离。
RatecodeID: 行程的费率代码。
store_and_fwd_flag: 表示行程数据是否被存储和转发的标志。
PULocationID 和 DOLocationID: 行程开始和结束位置的标识符。
payment_type: 行程使用的支付类型。
其他字段直观易懂,有助于建模过程。
参赛者鼓励利用这些信息丰富的字段来构建稳健的预测模型,并为准确预测总费用金额的挑战做出贡献。
解决方案应旨在提高出租车行程总费用金额预测的准确性和效率。