数据集概述
本数据集为CLS INFRA框架下WP3的基线方法学用户需求分析补充数据,包含语料库元数据、格式/方法/工具分析结果等9个文件,覆盖全量与开放获取、CLS分类的语料库信息,支持自然语言处理领域的用户需求研究与语料库分析。
文件详解
- 说明文档类
- 文件名称:0_README.md
- 文件格式:MD
- 字段映射介绍:提供数据集开发背景(CLS INFRA WP3框架)及参考链接说明
- 语料库元数据类
- 文件名称:corpus-metadata_full-set_all.csv
- 文件格式:CSV
- 字段映射介绍:包含primary-id(主ID)、secondary-id(次ID)、author(作者)、source(来源)、type(类型)、language(语言)、title(标题)、year(年份)、keywords(关键词)、size_KB(大小KB)、size_tokens(词数)、CLS(分类)、copyright(版权)等全量语料库元数据字段
- 文件名称:corpus-metadata_full-set_cls.csv
- 文件格式:CSV
- 字段映射介绍:包含上述同结构字段,为CLS分类的语料库元数据
- 文件名称:corpus-metadata_open_access_all.csv
- 文件格式:CSV
- 字段映射介绍:包含上述同结构字段,为全量开放获取的语料库元数据
- 文件名称:corpus-metadata_open_access_cls.csv
- 文件格式:CSV
- 字段映射介绍:包含上述同结构字段,为CLS分类的开放获取语料库元数据
- 分析结果类
- 文件名称:results_formats_full.csv
- 文件格式:CSV
- 字段映射介绍:全量格式分析结果数据
- 文件名称:results_methods_full.csv
- 文件格式:CSV
- 字段映射介绍:全量方法分析结果数据
- 文件名称:results_tools_full.csv
- 文件格式:CSV
- 字段映射介绍:全量工具分析结果数据
- 压缩文件类
- 文件名称:CLS-INFRA_WP3_CLS-Corpus_OA.zip
- 文件格式:ZIP
- 字段映射介绍:CLS-INFRA WP3的CLS分类开放获取语料库压缩包
数据来源
CLS INFRA框架下WP3项目
适用场景
- NLP语料库资源管理: 利用元数据文件分析语料库的来源、类型、版权分布,支撑语料库资源的分类与整合
- 用户需求分析研究: 通过格式/方法/工具分析结果,洞察自然语言处理领域用户对语料库的需求偏好
- 开放获取语料库应用: 基于开放获取元数据文件,筛选可公开使用的语料库资源用于学术研究
- 语料库规模与特征分析: 借助size_KB、size_tokens等字段,统计语料库的规模分布与语言特征