Multi_CAST_Based_多语言口语文本标注语料库数据_v2211

数据集概述

本数据集为Multi-CAST项目中的Tulil语料库,属于多语言口语文本标注语料库,由Meng, Chenxi于2022年创建,收录于班贝格大学发布的Multi-CAST版本2211中,包含医疗相关的CT语义关键词,是研究多语言口语文本标注的基础资源。

文件详解

  • 文件名称:Multi-CAST/mctulil-v2211.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包形式,未提供内部文件结构及字段信息,语义关键词含"medical: ct"

数据来源

Meng, Chenxi. 2022. Multi-CAST Tulil. In Haig, Geoffrey & Schnell, Stefan (eds.), Multi-CAST: Multilingual corpus of annotated spoken texts. Version 2211. Bamberg: University of Bamberg.

适用场景

  • 多语言语料库研究: 用于分析多语言口语文本的标注体系与语料结构
  • 口语语言学分析: 探究Tulil语料库中口语文本的语言特征与使用规律
  • 医疗领域文本研究: 基于"medical: ct"关键词,开展医疗相关口语文本的专项分析
  • 语言资源开发: 作为多语言口语标注语料库的基础资源,支持相关语言技术工具的开发
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 639.99 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。