数据集概述
本数据集为Multi-CAST项目中的Tulil语料库,属于多语言口语文本标注语料库,由Meng, Chenxi于2022年创建,收录于班贝格大学发布的Multi-CAST版本2211中,包含医疗相关的CT语义关键词,是研究多语言口语文本标注的基础资源。
文件详解
- 文件名称:Multi-CAST/mctulil-v2211.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包形式,未提供内部文件结构及字段信息,语义关键词含"medical: ct"
数据来源
Meng, Chenxi. 2022. Multi-CAST Tulil. In Haig, Geoffrey & Schnell, Stefan (eds.), Multi-CAST: Multilingual corpus of annotated spoken texts. Version 2211. Bamberg: University of Bamberg.
适用场景
- 多语言语料库研究: 用于分析多语言口语文本的标注体系与语料结构
- 口语语言学分析: 探究Tulil语料库中口语文本的语言特征与使用规律
- 医疗领域文本研究: 基于"medical: ct"关键词,开展医疗相关口语文本的专项分析
- 语言资源开发: 作为多语言口语标注语料库的基础资源,支持相关语言技术工具的开发