数据集

哈萨克语新闻文章数据集

数据来源：互联网公开数据

标签：哈萨克语,新闻,文本分类,情感分析,命名实体识别,多语言处理,语言模型

数据概述：
本数据集收录了从Tengri News解析的哈萨克语新闻文章，涵盖旅游、人口统计、泛新闻等多种主题。数据集旨在支持针对哈萨克语的自然语言处理（NLP）任务，包括文本分类、情感分析和命名实体识别（NER）。每个条目包含新闻文章的标题、链接、标签以及全文内容，为多语言NLP和语言模型的研究提供了有价值的资源。

数据集由两个CSV文件组成：
1. tengri_news.csv：包含每篇新闻文章的主文本和元数据，字段包括：
- title：新闻文章的标题（字符串类型）。
- url：指向Tengri News上原始新闻文章的链接（字符串类型）。
- tags：与文章内容相关的标签列表（字符串列表类型）。
- text：文章的全文内容（字符串类型）。

tags.csv：标签的参考列表，字段包括：
url：指向Tengri News上与特定标签相关的所有文章页面的链接（字符串类型）。
tag：表示特定主题的唯一标签（字符串类型）。

数据用途概述：
该数据集适用于哈萨克语的自然语言处理任务，如文本分类、情感分析和命名实体识别。研究人员可以利用这些数据进行多语言处理的研究，构建和训练哈萨克语的语言模型。此外，数据集还适用于分析哈萨克语新闻内容的主题和趋势，以及支持基于哈萨克语的文本挖掘和信息检索任务。教育机构和学习者也可使用该数据集进行NLP相关的教学和实验。

引用说明：
如果在研究或项目中使用此数据集，请按照以下格式进行引用：
@misc{salamat_kuantaiuly_2024, title={Kazakh News Articles Dataset}, url={https://www.kaggle.com/ds/5802385}, DOI={10.34740/KAGGLE/DS/5802385}, publisher={Kaggle}, author={Salamat Kuantaiuly}, year={2024} }

数据与资源

哈萨克语新闻文章数据集.zipZIP
17.56 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	17.56 MiB
最后更新	2025年4月27日
创建于	2025年4月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

哈萨克语新闻文章数据集

数据与资源

附加信息

注册成功！