索拉尼库尔德语高质量自动命名实体识别数据集2024

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

索拉尼库尔德语高质量自动命名实体识别数据集2024

数据集概述

该数据集是针对低资源语言索拉尼库尔德语的自动标注命名实体识别（NER）资源，包含二零二四年发布的两千三百余篇新闻文章，覆盖政治、经济等六个领域，采用BIO标注方案，含六十五万余词元及十二类实体类型，用于支持库尔德语自然语言处理研究。

文件详解

主目录文件：
Adyan_metadata.txt：TXT格式，可能包含数据集元信息
Adyan_English_Sample.xlsx：XLSX格式，英文样本数据
Adyan_Kurdish.txt：TXT格式，库尔德语文本数据，含BIO标注（如B-ORG、I-ORG等实体标签）
Code目录文件：
NER_Code.txt：TXT格式，NER相关代码文件
Corpus and Dictionary目录文件：
Kurdish_NER_Dictionary.xlsx：XLSX格式，库尔德语命名实体词典
Kurdish Corpus.xlsx：XLSX格式，库尔德语语料库

适用场景

库尔德语自然语言处理研究：用于训练和评估索拉尼库尔德语命名实体识别模型
低资源语言技术开发：支持库尔德语情感分析、机器翻译等NLP任务
语言资源建设：为低资源语言语料库构建、词典开发提供数据支持
学术研究：助力低资源语言处理领域的方法学验证与技术创新

数据与资源

6gffcrcj75-2.zipZIP
9.47 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	9.47 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？