AI4PROFHEALTH_ProfNER_MEDDOPROF_职业与工作状态术语词表数据

数据集概述

本数据集为AI4PROFHEALTH项目下的职业与工作状态术语词表,整合自DeCS、ESCO、SnomedCT、WordNet等术语集,同时包含通过Stanford CoreNLP从社交媒体档案中检测到的职业术语。每条术语均附带其词元,词元由PlanTL Med_Tagger提取,可用于职业识别相关任务。

文件详解

  • 文件名称:occupations-gazetteer.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含职业与工作状态术语词表数据,每条术语包含原始术语文本及其对应的词元信息,词元由PlanTL Med_Tagger工具提取生成。

数据来源

论文“The profner shared task on automatic recognition of occupation mentions in social media: systems, evaluation, guidelines, embeddings and corpora”

适用场景

  • 职业实体识别模型训练: 作为词表资源支持ProfNER任务中社交媒体文本的职业提及自动识别模型开发。
  • 医疗健康领域术语标准化: 用于统一医疗相关职业术语的表达形式,辅助医疗文本的标准化处理。
  • 社交媒体职业信息抽取: 支持从社交媒体档案中提取用户职业信息的应用场景。
  • 职业术语词元分析: 基于词元数据研究职业术语的形态特征与语义关联。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.26 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。