以色列数据科学与工程领域职位招聘数据集-2024年双周更新

以色列数据科学与工程领域职位招聘数据集-2024年双周更新 数据来源:互联网公开数据 标签:招聘,职位,数据科学,数据分析,数据工程,机器学习,以色列,Indeed,Web抓取,时间序列 数据概述: 本数据集通过每周两次(双周)的网络抓取,收集了2024年期间Indeed网站上以色列地区的数据科学、数据分析、数据工程师、商业智能和机器学习工程师等相关职位的招聘信息。原始数据包含约14.1万条记录,其中包含了超过8000个具有唯一ID和完整文本描述的招聘信息。数据以CSV和Parquet格式提供。

原始数据包含以下关键信息:职位标题、公司名称、发布日期、地点、职位描述等。经过初步筛选,提取了约3000条相关职位,并使用Gemini模型从完整文本描述中提取了所需的技能和经验年限。

原始数据集的注意事项: * 部分字段(如“is_responsive”、“job_type”和“company_rating”)并非在所有日期都可用,因为网站结构会发生变化。 * “Url”是Indeed使用的唯一标识符。有时,不同ID的职位描述完全相同。有时,相同“url”的完整文本描述会随时间变化。 * “last_update”字段包含职位发布时间信息。超过30天的职位,仅显示“older than 30 days”。 * 提取“text_full”和“company_rating”字段需要额外点击。这些数据仅针对发布时间不足1个月的职位提取(以及每页的第一条记录,因为这些记录不需要额外点击)。 * 抓取数据的时间通常为每周一和周四。 * 部分职位来自招聘公司,而非直接雇主。 * 自11月11日起,“last_update”字段因网站改版而不可用。增加了“employer_active”和“tagged_new”两个新字段。开始在周六进行抓取,以更好地了解职位描述首次出现的时间。

处理后数据集的注意事项: * 除了职位标题中包含相关关键词的职位外,还包括职位描述中需要数据分析师、数据科学家、数据工程师或商业智能技能的职位。 * ML/AI职位指的是强制要求具备“机器学习”、“深度学习”或“人工智能”技能的职位。 * “Cloud skills”列如果提及多个云提供商或仅提及“Cloud skills”而未提供详细信息,则值为“any cloud”。“viz_tools”列同理,如果提及多个可视化工具或仅提及可视化工具知识要求而未提及具体工具,则值为“any_viz_tool”。 * “first_online”列包含职位首次出现在Indeed上的计算日期。该日期由首次抓取日期和“last_update”字段的值计算得出。 * 如果职位描述包含“可以在A市的办公室或B市的办公室工作”之类的文本,Indeed会创建两个具有不同ID的独立职位记录。使用“is_unique_text”字段标记这种文本完全相同的职位。

数据用途概述: 该数据集可用于多种分析和研究场景,包括: * 分析以色列数据科学与工程领域的人才市场趋势。 * 评估不同技能和经验在招聘中的需求。 * 研究不同公司和行业的招聘偏好。 * 跟踪职位发布的时间序列变化。 * 为求职者提供市场洞察,帮助他们了解就业机会和技能要求。 * 进行竞争分析,了解不同公司之间的招聘策略。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 13:45 (UTC)
创建于 五月 31, 2025, 13:38 (UTC)