奥里亚语新闻与维基百科数据集-2021-arnavs19
数据来源:互联网公开数据
标签:奥里亚语,新闻,维基百科,语言模型,情感分析,主题建模,数据集
数据概述:
本数据集包含奥里亚语文本样本,来源包括新闻网站、维基百科和新闻语料库。数据集分为三个主要部分:
- 奥里亚语新闻文章:收集了19000篇近期奥里亚语新闻文章,涵盖政治、体育、娱乐等多个主题。
- 奥里亚语维基百科文章:从奥里亚语维基百科提取了17000篇文本样本,涵盖历史、文化、科学、地理等主题。
- 奥里亚语新闻语料库:汇集了550,000篇来自奥里萨邦各新闻来源的文本数据,包括正式新闻文章和非正式博客文章、评论等。
数据用途概述:
该数据集适用于多种研究和应用场景,包括:
- 语言建模:用于训练奥里亚语语言模型,支持文本生成、摘要和翻译等任务。
- 情感分析:分析新闻文章和其他文本样本的情感,帮助了解公众对奥里萨邦事件的意见和反应。
- 主题建模:识别和分类数据集中的主题,有助于理解奥里亚语内容中的主要主题。
数据格式:
- dataset/
- odia-news-classification/
- train.csv
- valid.csv
- odia-news-corpus/
- dharitri_dataset.jl
- pragativadi_dataset.jl
- prameya_dataset.jl
- samaja_dataset.jl
- samaya_dataset.jl
- sambad_dataset.jl
- odia-wiki-articles/
- train/
- train/
- article1.txt
- article2.txt
- ...
- valid/
- valid/
- article1.txt
- article2.txt
- ...
许可与引用:
请参考各原始来源以获取关于许可使用的更多信息。
如果您在研究或应用中使用此数据集,请考虑引用原始来源,以认可贡献者并支持奥里亚语处理领域未来的相关工作。