新加坡优质地段住房评论数据集-2021年-jyingong
数据来源:互联网公开数据
标签:新加坡,住房,公共住房,评论数据,Reddit,数据分析,文本清理
数据概述:
本数据集来源于Reddit,包含对新加坡优质地段住房(Prime Location Housing - PLH)项目的评论数据。数据集分为两部分:comment.csv和details.csv,合计358条评论,包括主评论及其子评论。评论内容为原始状态,可能包含拼写错误、表情符号、网络用语和新加坡英语(Singlish)。数据集的时间范围截至2021年10月27日。
数据用途概述:
该数据集适用于文本分析、公众意见调查、社交媒体数据分析等多种场景。研究人员可以利用这些数据了解公众对新加坡优质地段住房项目的看法和反馈;城市规划者可以参考这些数据优化公共住房政策;教育机构可以使用这些数据进行社交媒体文本处理的教学。
dataset 1: comment.csv
该文件包含358条评论及其原始内容,包括主评论和子评论。评论内容未经处理,包含拼写错误、表情符号、网络用语和新加坡英语等。
dataset 2: details.csv
该文件包含评论的详细信息,字段包括:
- comment_id: 每条评论的唯一标识符
- parent_id: 主评论的标识符
- username: 发表评论的用户名,需移除两个机器人账号:"RemindMeBot" 和 "sneakpeek_bot"
- upvotes: 评论获得的点赞数
- datetime: 评论时间戳,数据类型为float[64],需转换为时间格式,使用pandas的pd.to_datetime(df_1.datetime, unit = "s")
建议对评论内容进行文本清理,以提高数据分析的准确性。