北萨米语广播字幕语料库_2021_2024

数据集概述

本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。

文件详解

  • 文件名称:sami_subtitles.json
  • 文件格式:JSON
  • 字段映射介绍:包含北萨米语字幕的完整句子文本、唯一句子ID,以及对应YLE Sápmi广播的来源元数据信息。

数据来源

YLE Sápmi广播

适用场景

  • 北萨米语语言研究: 分析词汇使用频率、句子结构特征及语言演变趋势。
  • 自然语言处理模型训练: 作为北萨米语语料资源,支持机器翻译、文本生成等模型的开发与优化。
  • 濒危语言保护: 为北萨米语的数字化保存与传承提供结构化语料支持。
  • 媒体内容分析: 研究YLE Sápmi广播中北萨米语的使用场景与传播特点。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.13 MiB
最后更新 2026年2月9日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。