哈萨克语新闻文章数据集
数据来源:互联网公开数据
标签:哈萨克语,新闻,文本分类,情感分析,命名实体识别,多语言处理,语言模型
数据概述:
本数据集收录了从Tengri News解析的哈萨克语新闻文章,涵盖旅游、人口统计、泛新闻等多种主题。数据集旨在支持针对哈萨克语的自然语言处理(NLP)任务,包括文本分类、情感分析和命名实体识别(NER)。每个条目包含新闻文章的标题、链接、标签以及全文内容,为多语言NLP和语言模型的研究提供了有价值的资源。
数据集由两个CSV文件组成:
1. tengri_news.csv:包含每篇新闻文章的主文本和元数据,字段包括:
- title:新闻文章的标题(字符串类型)。
- url:指向Tengri News上原始新闻文章的链接(字符串类型)。
- tags:与文章内容相关的标签列表(字符串列表类型)。
- text:文章的全文内容(字符串类型)。
tags.csv:标签的参考列表,字段包括:
url:指向Tengri News上与特定标签相关的所有文章页面的链接(字符串类型)。
tag:表示特定主题的唯一标签(字符串类型)。
数据用途概述:
该数据集适用于哈萨克语的自然语言处理任务,如文本分类、情感分析和命名实体识别。研究人员可以利用这些数据进行多语言处理的研究,构建和训练哈萨克语的语言模型。此外,数据集还适用于分析哈萨克语新闻内容的主题和趋势,以及支持基于哈萨克语的文本挖掘和信息检索任务。教育机构和学习者也可使用该数据集进行NLP相关的教学和实验。
引用说明:
如果在研究或项目中使用此数据集,请按照以下格式进行引用:
@misc{salamat_kuantaiuly_2024,
title={Kazakh News Articles Dataset},
url={https://www.kaggle.com/ds/5802385},
DOI={10.34740/KAGGLE/DS/5802385},
publisher={Kaggle},
author={Salamat Kuantaiuly},
year={2024}
}