数据集

孟加拉地区命名实体识别基准数据集_ANCHOLIK_NER

数据集概述

该数据集是针对孟加拉锡尔赫特、吉大港、巴里萨尔、迈门辛和诺阿卡利方言的命名实体识别基准数据集，包含一万七千四百零五个句子，均匀分布于五个地区，实体分为十种类型。原始句子来源于两个公开数据集及网络爬虫获取的在线报刊文章。

文件详解

该数据集包含多个CSV格式文件，具体说明如下： - 原始句子文件: - Regional_NER (Raw Sentences).csv: CSV格式，包含原始句子数据，字段包括句子编号、标准孟加拉语及各地区方言文本（如吉大港、锡尔赫特等）。 - 分地区命名实体识别文件（位于Regional_NER/目录下）: - Barishal_NER.csv: CSV格式，包含巴里萨尔方言的命名实体标注数据，字段包括句子编号、单词及BIO标签。 - Sylhet_NER.csv: CSV格式，包含锡尔赫特方言的命名实体标注数据，字段同上。 - Mymensingh_NER.csv: CSV格式，包含迈门辛方言的命名实体标注数据，字段同上。 - Chittagong_NER.csv: CSV格式，包含吉大港方言的命名实体标注数据，字段同上。 - Noakhali_NER.csv: CSV格式，包含诺阿卡利方言的命名实体标注数据，字段同上。

适用场景

自然语言处理研究: 用于训练和评估孟加拉地区方言的命名实体识别模型。
方言语言学分析: 探究孟加拉不同地区方言的词汇特征及实体表达差异。
多语言NLP基准测试: 作为低资源语言区域NER任务的基准数据集。
文化与社会研究: 分析地区方言文本中的实体分布，反映区域文化特征。

数据与资源

gbkszkt8z3-3.zipZIP
0.60 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.6 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。