数据集

网站点击率预测数据集

网站点击率预测数据集数据来源：互联网公开数据
标签：点击率, 用户行为, 搜索引擎优化, 机器学习, 二分类模型, 用户交互, 职位发布

数据概述
本数据集用于预测用户在访问网站时对职位的点击行为及申请率。数据记录了用户在进行职位搜索时的交互信息，包括用户查询与职位信息的匹配度、用户行为特征、职位发布时间等。每条记录对应一个用户对某个职位的浏览行为，共有10个字段，具体定义如下：

title proximity tfidf：衡量用户查询与职位标题的匹配程度。
description proximity tfidf：衡量用户查询与职位描述的匹配程度。
main query tfidf：衡量用户查询与职位标题及描述的整体匹配度评分。
query jl score：衡量用户查询与职位列表的流行度（受欢迎程度）。
query title score：衡量用户查询与职位标题的流行度（受欢迎程度）。
city match：表示职位发布的城市是否与用户指定（或用户所在）城市匹配。
job age days：表示职位发布至今的天数（职位年龄）。
apply：表示用户是否对该职位进行了申请（二分类目标变量，1为申请，0为未申请）。
search date pacific：用户进行搜索的日期（太平洋时区）。
class id：职位标题的类别ID（可能用于职位分类或聚类分析）。

数据用途概述
该数据集适用于以下场景：

用户行为分析：通过分析用户查询与职位信息的匹配程度，研究用户行为模式，优化职位搜索结果的展示逻辑。
点击率预测：构建二分类模型，预测用户是否会对某个职位进行申请，从而优化职位推荐策略。
职位发布策略优化：根据职位年龄、城市匹配度等特征，分析职位发布后的吸引力和生命周期，为雇主提供优化建议。
机器学习训练：可用于训练和验证二分类模型，评估模型性能（如AUC、准确率等）。
用户偏好分析：通过职位类别（class id）分析不同职位类别的点击和申请率，挖掘用户偏好模式。

数据分割说明
根据数据集中的“search date pacific”字段，建议将数据集分为训练集和测试集：
- 训练集：2018年1月21日至2018年1月26日之间的数据。
- 测试集：2018年1月27日的数据。

特殊说明
1. 主要特征与目标变量：建议首先关注前7个字段（title proximity tfidf、description proximity tfidf、main query tfidf、query jl score、query title score、city match、job age days），将其作为特征，预测第8个字段“apply”（用户是否申请）。
2. 类别特征扩展：可进一步将第10个字段“class id”（职位类别ID）纳入特征集，探索是否可以通过职位类别对数据进行分段分析，从而提升模型性能。

数据价值
该数据集在招聘网站、搜索引擎优化、用户行为分析和机器学习建模等领域具有重要价值。通过分析用户与职位的交互行为，可以为招聘平台提供优化建议，提升用户满意度和职位匹配效率。同时，数据集也适用于学术研究，作为二分类模型训练的基准数据。

数据与资源

网站点击率预测数据集.zipZIP
22.70 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	22.7 MiB
最后更新	2025年4月18日
创建于	2025年4月18日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

网站点击率预测数据集

数据与资源

附加信息

注册成功！