孟加拉语新闻分类数据集1963-2021

孟加拉语新闻分类数据集1963-2021 数据来源:互联网公开数据 标签:孟加拉语,新闻分类,NLP,机器学习,文本分析,情感分析,信息检索,语言建模

数据概述: 本数据集收录了来自Jamuna TV网站的超过11,500篇孟加拉语新闻文章,涵盖从1963年至2021年的时间范围。数据集包含新闻事件、更新和各种主题的文章,并被分为五大类别:体育、全国、国际、娱乐和国内。每篇文章都附有标题、发布时间、作者、类别、链接和摘要等元数据信息。该数据集完全使用孟加拉语,适用于孟加拉语的自然语言处理(NLP)任务。

数据用途概述: 该数据集适用于多种NLP任务,包括文本分类、情感分析、信息检索和语言建模。研究人员可以利用此数据集训练模型进行文章自动分类,评估文章的情感倾向,开发基于查询的相关文章检索系统,以及创建孟加拉语的语言模型和工具。此外,该数据集还适用于教育领域,可用于机器学习和NLP的教学,以及开发处理孟加拉语文本的应用程序,如新闻聚合器和推荐系统。

举例: 本数据集包含一篇关于孟加拉国国内政治事件的文章,标题为“新选举法规通过”,发布时间为2020年5月15日,作者为记者拉尼姆·艾哈迈德,类别为国内。文章摘要提及了新法规对选举过程的具体影响。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 795.12 MiB
最后更新 2025年6月4日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。