孟加拉语维基百科数据集

孟加拉语维基百科数据集 数据来源:互联网公开数据
标签:孟加拉语,维基百科,文本数据,自然语言处理,文本挖掘,机器学习,语料库

数据概述:
本数据集是从孟加拉语维基百科2019年6月10日的备份中提取的文本数据。数据经过清洗和整理,包含70377篇文章样本,总词汇量为18229481个,其中包含1289249个唯一词汇,占孟加拉语总词汇量的约7%。数据集以CSV格式存储,每条记录包含文章的唯一标识符(id)、文本内容(text)、标题(title)和链接(url)。

数据用途概述:
该数据集适用于孟加拉语自然语言处理相关研究,包括文本分类、信息提取、语言模型训练、机器翻译等场景。研究人员可以利用此数据集进行语料库构建、语言特征分析和算法开发;企业可以将其用于孟加拉语智能应用的开发;教育机构可用于孟加拉语自然语言处理的教学与研究。此外,该数据集还可为孟加拉语内容生成、情感分析和语言政策制定提供支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 64.62 MiB
最后更新 2025年4月17日
创建于 2025年4月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。