孟加拉地区命名实体识别基准数据集_ANCHOLIK_NER

数据集概述

该数据集是针对孟加拉锡尔赫特、吉大港、巴里萨尔、迈门辛和诺阿卡利方言的命名实体识别基准数据集,包含一万七千四百零五个句子,均匀分布于五个地区,实体分为十种类型。原始句子来源于两个公开数据集及网络爬虫获取的在线报刊文章。

文件详解

该数据集包含多个CSV格式文件,具体说明如下: - 原始句子文件: - Regional_NER (Raw Sentences).csv: CSV格式,包含原始句子数据,字段包括句子编号、标准孟加拉语及各地区方言文本(如吉大港、锡尔赫特等)。 - 分地区命名实体识别文件(位于Regional_NER/目录下): - Barishal_NER.csv: CSV格式,包含巴里萨尔方言的命名实体标注数据,字段包括句子编号、单词及BIO标签。 - Sylhet_NER.csv: CSV格式,包含锡尔赫特方言的命名实体标注数据,字段同上。 - Mymensingh_NER.csv: CSV格式,包含迈门辛方言的命名实体标注数据,字段同上。 - Chittagong_NER.csv: CSV格式,包含吉大港方言的命名实体标注数据,字段同上。 - Noakhali_NER.csv: CSV格式,包含诺阿卡利方言的命名实体标注数据,字段同上。

适用场景

  • 自然语言处理研究: 用于训练和评估孟加拉地区方言的命名实体识别模型。
  • 方言语言学分析: 探究孟加拉不同地区方言的词汇特征及实体表达差异。
  • 多语言NLP基准测试: 作为低资源语言区域NER任务的基准数据集。
  • 文化与社会研究: 分析地区方言文本中的实体分布,反映区域文化特征。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.6 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。