CLS_INFRA_Based_基线方法学用户需求分析补充数据

数据集概述

本数据集为CLS INFRA框架下WP3的基线方法学用户需求分析补充数据,包含语料库元数据、格式/方法/工具分析结果等9个文件,覆盖全量与开放获取、CLS分类的语料库信息,支持自然语言处理领域的用户需求研究与语料库分析。

文件详解

  • 说明文档类
  • 文件名称:0_README.md
  • 文件格式:MD
  • 字段映射介绍:提供数据集开发背景(CLS INFRA WP3框架)及参考链接说明
  • 语料库元数据类
  • 文件名称:corpus-metadata_full-set_all.csv
  • 文件格式:CSV
  • 字段映射介绍:包含primary-id(主ID)、secondary-id(次ID)、author(作者)、source(来源)、type(类型)、language(语言)、title(标题)、year(年份)、keywords(关键词)、size_KB(大小KB)、size_tokens(词数)、CLS(分类)、copyright(版权)等全量语料库元数据字段
  • 文件名称:corpus-metadata_full-set_cls.csv
  • 文件格式:CSV
  • 字段映射介绍:包含上述同结构字段,为CLS分类的语料库元数据
  • 文件名称:corpus-metadata_open_access_all.csv
  • 文件格式:CSV
  • 字段映射介绍:包含上述同结构字段,为全量开放获取的语料库元数据
  • 文件名称:corpus-metadata_open_access_cls.csv
  • 文件格式:CSV
  • 字段映射介绍:包含上述同结构字段,为CLS分类的开放获取语料库元数据
  • 分析结果类
  • 文件名称:results_formats_full.csv
  • 文件格式:CSV
  • 字段映射介绍:全量格式分析结果数据
  • 文件名称:results_methods_full.csv
  • 文件格式:CSV
  • 字段映射介绍:全量方法分析结果数据
  • 文件名称:results_tools_full.csv
  • 文件格式:CSV
  • 字段映射介绍:全量工具分析结果数据
  • 压缩文件类
  • 文件名称:CLS-INFRA_WP3_CLS-Corpus_OA.zip
  • 文件格式:ZIP
  • 字段映射介绍:CLS-INFRA WP3的CLS分类开放获取语料库压缩包

数据来源

CLS INFRA框架下WP3项目

适用场景

  • NLP语料库资源管理: 利用元数据文件分析语料库的来源、类型、版权分布,支撑语料库资源的分类与整合
  • 用户需求分析研究: 通过格式/方法/工具分析结果,洞察自然语言处理领域用户对语料库的需求偏好
  • 开放获取语料库应用: 基于开放获取元数据文件,筛选可公开使用的语料库资源用于学术研究
  • 语料库规模与特征分析: 借助size_KB、size_tokens等字段,统计语料库的规模分布与语言特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 15.12 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。