用户帖子浏览行为推荐系统数据集-vatsalparsaniya
数据来源:互联网公开数据
标签:推荐系统,内容推荐,协同过滤,用户行为,帖子数据,浏览数据,用户画像
数据概述:
本数据集旨在构建一个基于内容和协同过滤的推荐系统,用于为用户推荐帖子,并为给定的帖子推荐相似帖子。数据集包含三个主要文件,分别提供了用户、帖子和用户浏览行为的信息。
用户数据(user_data.csv):
该文件包含了用户的详细信息,用于构建用户画像。字段包括:
userid:用户的唯一标识符,由字母数字组成(字符串类型)。
firstname:用户的名字(字符串类型)。
last_name:用户的姓氏(字符串类型)。
gender:用户的性别,取值为“male”或“female”(字符串类型)。
avatar:用户的头像URL地址(字符串类型)。
city:用户所在的城市(字符串类型)。
academics:用户的学历,取值为“undergraduate”(本科)或“graduate”(研究生)(字符串类型)。
帖子数据(post_data.csv):
该文件包含了帖子的详细信息,用于内容推荐。字段包括:
post_id:帖子的唯一标识符,由字母数字组成(字符串类型)。
title:帖子的标题(字符串类型)。
category:帖子的类别(字符串类型)。
浏览数据(view_data.csv):
该文件包含了用户浏览帖子的历史记录,用于协同过滤。字段包括:
user_id:用户的唯一标识符,与用户数据中的userid对应(字符串类型)。
post_id:帖子的唯一标识符,与帖子数据中的post_id对应(字符串类型)。
time_stamp:用户浏览帖子的时间戳,采用ISO时间格式(字符串类型)。
数据用途概述:
该数据集可用于构建推荐系统,主要功能包括:
为给定用户推荐帖子:基于用户过去的浏览行为、用户画像和帖子内容,通过内容过滤和协同过滤算法,为用户推荐可能感兴趣的帖子。
为给定帖子推荐相似帖子:基于帖子内容相似度,为用户推荐与给定帖子相似的其他帖子。
数据集可应用于多种场景,如社交媒体平台、新闻网站、电商平台等,用于个性化内容推荐,提升用户体验。