奥里亚语新闻与维基百科数据集-2021-arnavs19

奥里亚语新闻与维基百科数据集-2021-arnavs19 数据来源:互联网公开数据 标签:奥里亚语,新闻,维基百科,语言模型,情感分析,主题建模,数据集

数据概述: 本数据集包含奥里亚语文本样本,来源包括新闻网站、维基百科和新闻语料库。数据集分为三个主要部分:

  1. 奥里亚语新闻文章:收集了19000篇近期奥里亚语新闻文章,涵盖政治、体育、娱乐等多个主题。
  2. 奥里亚语维基百科文章:从奥里亚语维基百科提取了17000篇文本样本,涵盖历史、文化、科学、地理等主题。
  3. 奥里亚语新闻语料库:汇集了550,000篇来自奥里萨邦各新闻来源的文本数据,包括正式新闻文章和非正式博客文章、评论等。

数据用途概述: 该数据集适用于多种研究和应用场景,包括: - 语言建模:用于训练奥里亚语语言模型,支持文本生成、摘要和翻译等任务。 - 情感分析:分析新闻文章和其他文本样本的情感,帮助了解公众对奥里萨邦事件的意见和反应。 - 主题建模:识别和分类数据集中的主题,有助于理解奥里亚语内容中的主要主题。

数据格式: - dataset/ - odia-news-classification/ - train.csv - valid.csv - odia-news-corpus/ - dharitri_dataset.jl - pragativadi_dataset.jl - prameya_dataset.jl - samaja_dataset.jl - samaya_dataset.jl - sambad_dataset.jl - odia-wiki-articles/ - train/ - train/ - article1.txt - article2.txt - ... - valid/ - valid/ - article1.txt - article2.txt - ...

许可与引用: 请参考各原始来源以获取关于许可使用的更多信息。 如果您在研究或应用中使用此数据集,请考虑引用原始来源,以认可贡献者并支持奥里亚语处理领域未来的相关工作。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 389.32 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。