乌兹别克语命名实体识别数据集

数据集概述

该数据集为乌兹别克语命名实体识别模型的训练与评估构建了人工标注语料库,包含2000个句子(25865个单词),采用BIOES方案标注实体边界与类型,经乌兹别克语专家审核确保准确性,适用于自然语言处理模型开发。

文件详解

  • 文件名称: courpusNER.xlsx
  • 文件格式: Excel (.xlsx)
  • 内容说明: 包含2000个乌兹别克语句子的命名实体标注数据,标注采用BIOES方案,涵盖实体边界与类型信息;数据来源包括lex.uz数据库的官方文本及人工编写的多实体复杂结构句子。

数据来源

部分数据来自公开可用的lex.uz数据库

适用场景

  • 自然语言处理研究: 用于乌兹别克语命名实体识别模型的训练、验证与性能评估
  • 低资源语言处理: 支撑乌兹别克语等低资源语言的NLP技术开发与优化
  • 语料库语言学分析: 研究乌兹别克语中命名实体的分布特征与语言结构
  • 多语言模型适配: 为多语言NER模型提供乌兹别克语标注数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.67 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。