CEOML_Based_职业参与度机器学习分类器开发数据

数据集概述

本数据集包含CEOML(职业参与度机器学习分类器)开发过程中的原始数据、代码及模型文件,总计11个文件。核心内容为用于量化职业参与度上下文的文本数据、分类模型文件、训练配置及分析代码,支持对职业参与度分类模型的复现与研究。

文件详解

  • 模型相关文件
  • 文件名称:pytorch_model.bintraining_args.binconfig.json
  • 文件格式:.bin.json
  • 字段映射介绍:包含训练好的PyTorch模型参数、训练配置参数及模型结构配置信息
  • 分词器相关文件
  • 文件名称:tokenizer_config.jsonspecial_tokens_map.jsonvocab.txt
  • 文件格式:.json.txt
  • 字段映射介绍:分词器配置参数、特殊 tokens 映射规则及词汇表(含日语词汇及特殊符号如[PAD]、[UNK]等)
  • 数据文件
  • 文件名称:data.csvdata1.csvdata2.csv
  • 文件格式:.csv
  • 字段映射介绍:包含label(标签)、feature(文本特征)字段,文本内容为日语职业参与度相关描述
  • 代码文件
  • 文件名称:Kappa_coef.ipynbCOEML.ipynb
  • 文件格式:.ipynb
  • 字段映射介绍:包含Kappa系数计算代码及CEOML模型开发相关代码

适用场景

  • 职业参与度量化研究:利用标注文本数据训练或验证职业参与度分类模型
  • 机器学习模型复现:基于模型文件与代码复现CEOML分类器的训练与评估过程
  • 自然语言处理应用:分析日语文本特征与职业参与度标签的关联关系
  • 统计指标分析:通过Kappa系数代码评估分类模型的一致性与可靠性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 426.07 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。