Sharechat推荐系统挑战赛2023用户广告互动数据集-malachiugwu
数据来源:互联网公开数据
标签:推荐系统,广告点击率,广告安装率,用户行为,机器学习,预测,数据竞赛,数据科学
数据概述:
本数据集来源于Sharechat RecSys Challenge 2023比赛,包含用户和广告特征(包括分类特征、二元特征、数值特征)以及用户是否点击和/或安装广告的相关记录。数据集基于2023年连续22天的广告投放数据生成,前21天的数据用于训练模型,第22天的数据用于生成测试集。记录中包括广告被用户浏览的“印象”数据,并标注了用户是否点击广告(is_clicked)和是否安装广告(is_installed)。根据is_clicked和is_installed的值,数据集可以被划分为四个非重叠子集:
- (0, 0): 用户既没有点击也没有安装广告的广告印象
- (1, 0): 用户点击了广告但没有安装的广告印象
- (0, 1): 用户没有点击广告但安装了应用的广告印象
- (1, 1): 用户点击广告后又安装应用的广告印象
为了控制数据集的大小并保护点击率和转化率等敏感信息,对上述四个子集的记录进行了差异性下采样。
数据用途概述:
该数据集适用于推荐系统研究、广告效果评估、用户行为建模等多个领域。参赛者需要利用训练数据训练模型,对测试数据进行预测,并提交预测结果。数据集可用于改进广告推荐算法、分析广告投放效果、理解用户交互行为等。此外,该数据集还适合用于教学和研究,帮助学习者掌握推荐系统和数据科学的相关技能。
数据集包含两个文件夹和一个README文件。训练文件夹包含30个文件,每个文件代表一天的训练数据;测试文件夹包含一个文件,代表测试数据。文件以制表符分隔,格式如下:
训练数据:
每个文件的首行是表头,包含字段名f_0到f_79,以及两个标签列is_clicked和is_installed。后续行代表单个广告展示记录,各字段以制表符分隔。字段类型包括:
- RowId(f_0): 行ID
- Date(f_1): 日期
- Categorical features(f_2到f_32): 分类特征
- Binary features(f_33到f_41): 二元特征
- Numerical features(f_42到f_79): 数值特征
- Labels(is_clicked, is_installed): 标签
测试数据:
测试文件的格式与训练文件相同,但不包含is_clicked和is_installed标签列。
提交格式:
提交文件应包含三列,分别为测试数据中对应的RowId、预测的is_clicked和is_installed值,各列以制表符分隔。
更多详情可访问:https://recsys.acm.org/recsys23/challenge/