WikiTajrobe网站用户体验-评论与公司信息数据集-thisiserfan
数据来源:互联网公开数据
标签:用户体验,评论,公司信息,职场,薪资,招聘,数据分析,文本分析,情感分析,WikiTajrobe
数据概述:
本数据集包含了WikiTajrobe网站上关于用户体验、评论以及公司信息的数据,旨在为研究职场环境、公司评价、用户反馈等提供数据支持。数据集由多个CSV文件构成,涵盖了用户发布的评论、公司信息、职位信息等多个方面。
数据集包含以下文件:
reviews.csv:收录了WikiTajrobe网站上的所有用户评论(体验)。
comments.csv:收录了WikiTajrobe网站上的所有评论。
companies.csv:收录了WikiTajrobe网站上的所有公司信息。
companies_info.csv:收录了关于公司的额外信息。
mapping_job_titles.csv:用于文本数据清洗的职位映射表,由ChatGPT生成。
persian_stop_words.txt:用于文本数据清洗的波斯语停用词列表。
各文件字段定义如下:
- reviews.csv(评论数据)
id:主键,整数类型。
wt_id:WikiTajrobe网站上的评论ID,整数类型。
company_id:WikiTajrobe网站上的公司ID,整数类型。
default_tag:体验是否与工作经验或面试相关,字符串类型。
danger_tag:体验是否包含性骚扰报告,字符串类型。
title:体验标题,字符串类型。
text:体验正文,字符串类型。
job_title:体验提交者的职位,字符串类型。
status:体验提交者的雇佣状态,字符串类型。
score:用户给公司的评分,整数类型。
salary_offer:面试中的薪资待遇,字符串类型。
salary:工作经验中的实际薪资,字符串类型。
publish_date:评论发布日期,字符串类型。
interview_date:面试日期,字符串类型。
employment_start_date:工作开始日期,字符串类型。
cell_group:JSON格式的字段,其内容以独立字段的形式呈现,JSONB类型。
created_at:记录在数据库中的时间戳,日期时间类型。
- comments.csv(评论数据)
id:主键,整数类型。
review_id:WikiTajrobe网站上的评论ID,整数类型。
company_id:WikiTajrobe网站上的公司ID,整数类型。
text:评论正文,字符串类型。
time_elapsed:评论创建以来经过的时间,字符串类型。
created_at:记录在数据库中的时间戳,日期时间类型。
- companies.csv(公司数据)
id:主键,整数类型。
wt_id:WikiTajrobe网站上的公司ID,整数类型。
name:公司名称,字符串类型。
username:公司用户名,字符串类型。
created_at:记录在数据库中的时间戳,日期时间类型。
- mapping_job_titles.csv(职位映射表)
job_title:体验提交者的职位,字符串类型。
categorized_job_title:用于映射的分类职位,字符串类型。
- companies_info.csv(公司附加信息)
company_name:公司名称,字符串类型。
company_size:公司规模,字符串类型。
company_industry:公司所属行业,字符串类型。
数据用途概述:
该数据集适用于多种研究和分析场景,包括但不限于:
职场环境分析:分析不同公司的工作环境、文化氛围等。
公司评价研究:基于用户评分和评论,评估公司的声誉和员工满意度。
薪资调查:研究不同行业、不同职位、不同公司之间的薪资差异。
招聘流程分析:分析面试体验、招聘流程等。
文本挖掘与情感分析:对用户评论进行文本挖掘和情感分析,了解用户的情感倾向。
行业趋势分析:分析不同行业的发展趋势和特点。