数据集概述
本数据集为AI4PROFHEALTH项目下的职业与工作状态术语词表,整合自DeCS、ESCO、SnomedCT、WordNet等术语集,同时包含通过Stanford CoreNLP从社交媒体档案中检测到的职业术语。每条术语均附带其词元,词元由PlanTL Med_Tagger提取,可用于职业识别相关任务。
文件详解
- 文件名称:occupations-gazetteer.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含职业与工作状态术语词表数据,每条术语包含原始术语文本及其对应的词元信息,词元由PlanTL Med_Tagger工具提取生成。
数据来源
论文“The profner shared task on automatic recognition of occupation mentions in social media: systems, evaluation, guidelines, embeddings and corpora”
适用场景
- 职业实体识别模型训练: 作为词表资源支持ProfNER任务中社交媒体文本的职业提及自动识别模型开发。
- 医疗健康领域术语标准化: 用于统一医疗相关职业术语的表达形式,辅助医疗文本的标准化处理。
- 社交媒体职业信息抽取: 支持从社交媒体档案中提取用户职业信息的应用场景。
- 职业术语词元分析: 基于词元数据研究职业术语的形态特征与语义关联。