孟加拉语新闻分类数据集_BARD语料库

数据集概述

该数据集包含从孟加拉国主流新闻平台收集的2500篇孟加拉语新闻文章,分为经济、娱乐、国际、体育、国内五个平衡类别,每类500篇,支持孟加拉语文本分类、自然语言处理及相关机器学习任务。

文件详解

  • 文件名称:Bangla_Data_Artical_Dataset.zip
  • 文件格式:ZIP压缩包
  • 内容说明:压缩包内为2500篇孟加拉语新闻文章的纯文本文件,覆盖经济、娱乐、国际、体育、国内五个新闻领域,每类各500篇,无训练/测试、数据/标签或原始/处理数据的拆分结构

数据来源

Prothom Alo、Jugantor、Ittefaq、Bdnews24、Kaler Kantho、Bangla Tribune、Samakal

适用场景

  • 孟加拉语NLP研究:用于开发和优化孟加拉语新闻文本分类模型
  • 机器学习模型 benchmark:对比卷积神经网络(CNN)与循环神经网络(RNN)在多标签新闻分类任务中的性能
  • 新闻内容管理:支持自动化新闻分类、主题过滤及个性化内容推荐系统的开发
  • 语言学研究:为孟加拉语语言特征分析及NLP pipeline构建提供语料支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.69 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。