索拉尼库尔德语高质量自动命名实体识别数据集2024

数据集概述

该数据集是针对低资源语言索拉尼库尔德语的自动标注命名实体识别(NER)资源,包含二零二四年发布的两千三百余篇新闻文章,覆盖政治、经济等六个领域,采用BIO标注方案,含六十五万余词元及十二类实体类型,用于支持库尔德语自然语言处理研究。

文件详解

  • 主目录文件:
  • Adyan_metadata.txt:TXT格式,可能包含数据集元信息
  • Adyan_English_Sample.xlsx:XLSX格式,英文样本数据
  • Adyan_Kurdish.txt:TXT格式,库尔德语文本数据,含BIO标注(如B-ORG、I-ORG等实体标签)
  • Code目录文件:
  • NER_Code.txt:TXT格式,NER相关代码文件
  • Corpus and Dictionary目录文件:
  • Kurdish_NER_Dictionary.xlsx:XLSX格式,库尔德语命名实体词典
  • Kurdish Corpus.xlsx:XLSX格式,库尔德语语料库

适用场景

  • 库尔德语自然语言处理研究:用于训练和评估索拉尼库尔德语命名实体识别模型
  • 低资源语言技术开发:支持库尔德语情感分析、机器翻译等NLP任务
  • 语言资源建设:为低资源语言语料库构建、词典开发提供数据支持
  • 学术研究:助力低资源语言处理领域的方法学验证与技术创新
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 9.47 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。