数据集

Multi_CAST_Based_多语言口语文本标注语料库数据_v2211

数据集概述

本数据集为Multi-CAST项目中的Tulil语料库，属于多语言口语文本标注语料库，由Meng, Chenxi于2022年创建，收录于班贝格大学发布的Multi-CAST版本2211中，包含医疗相关的CT语义关键词，是研究多语言口语文本标注的基础资源。

文件详解

文件名称：Multi-CAST/mctulil-v2211.zip
文件格式：ZIP
字段映射介绍：压缩包形式，未提供内部文件结构及字段信息，语义关键词含"medical: ct"

数据来源

Meng, Chenxi. 2022. Multi-CAST Tulil. In Haig, Geoffrey & Schnell, Stefan (eds.), Multi-CAST: Multilingual corpus of annotated spoken texts. Version 2211. Bamberg: University of Bamberg.

适用场景

多语言语料库研究: 用于分析多语言口语文本的标注体系与语料结构
口语语言学分析: 探究Tulil语料库中口语文本的语言特征与使用规律
医疗领域文本研究: 基于"medical: ct"关键词，开展医疗相关口语文本的专项分析
语言资源开发: 作为多语言口语标注语料库的基础资源，支持相关语言技术工具的开发

数据与资源

14860607.zipZIP
639.99 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	639.99 MiB
最后更新	2026年1月21日
创建于	2026年1月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。