提格利尼亚语语言建模数据集TLMD_v1_0_0

数据集概述

该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。

文件详解

  • 文件名称: tlmd_v1.0.0.zip
  • 文件格式: ZIP压缩包
  • 数据结构: 包含训练集(约一百九十七万行)和验证集(约四万三千行),未进行分词或深度预处理,保留原始潜在信息

适用场景

  • 提格利尼亚语自然语言处理研究: 用于训练和评估语言模型、文本生成等任务
  • 低资源语言技术开发: 支持提格利尼亚语的分词、句法分析等基础NLP工具构建
  • 语料库语言学研究: 分析提格利尼亚语的词汇、语法特征及文本结构
  • 多语言模型扩展: 为多语言NLP模型提供提格利尼亚语数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 129.15 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。