乌兹别克语命名实体识别数据集2015

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

乌兹别克语命名实体识别数据集2015

数据集概述

该数据集为乌兹别克语命名实体识别模型的训练与评估构建，包含一万一千六百三十四个句子（九万九千四百零八个词），经人工标注，采用BIOES方案标记实体边界与类型，由乌兹别克语专家审核确保准确性与一致性。

文件详解

文件名称: courpusNER2015 (11k sentences).xlsx
文件格式: Excel (.xlsx)
内容说明: 包含乌兹别克语命名实体识别标注语料，数据来源包括立法文件（来自lex.uz数据库）和人工创建的复杂结构句子，标注遵循BIOES实体标记规范

适用场景

自然语言处理研究: 用于乌兹别克语命名实体识别（NER）模型的训练、验证与测试
低资源语言技术开发: 支撑乌兹别克语文本处理工具（如信息抽取、机器翻译）的构建
语言学研究: 分析乌兹别克语正式文本（如法律文件）中的实体分布特征
语料库语言学: 为乌兹别克语标注语料库建设提供参考案例

数据与资源

6bmcjn5s3c-1.zipZIP
2.05 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	2.05 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？