数据集

尼泊尔语新闻文本分类数据集NepaliNewsTextClassificationDataset-sangamthapa

数据来源：互联网公开数据

标签：文本分类, 尼泊尔语, 新闻, 自然语言处理, 机器学习, 多分类, 文本语料, 情感分析

数据概述：该数据集包含来自尼泊尔新闻的文章，用于文本分类任务。主要特征如下：时间跨度：数据未标明具体时间，但可推测为2019年前后。地理范围：数据主要来自尼泊尔，可能涵盖尼泊尔国内新闻。数据维度：数据集包含“headings”（标题）、“paras”（文章内容）和“label”（类别标签）三个字段。类别标签包括business（商业）、entertainment（娱乐）、sports（体育）等。数据格式：CSV格式，包含train.csv和valid.csv两个文件，分别用于训练和验证模型。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于尼泊尔语文本处理、新闻文本分类、多类别文本分类等方向的学术研究。行业应用：可以为尼泊尔语新闻网站、内容推荐系统提供数据支持，用于新闻内容的自动分类与推荐。决策支持：支持新闻媒体的内容管理和分类，优化新闻内容的组织与呈现。教育和培训：作为自然语言处理、机器学习课程的实训数据，帮助学生和研究人员熟悉文本分类任务。此数据集特别适合用于探索尼泊尔语新闻文本的特征与分类方法，帮助用户构建文本分类模型，提升新闻内容处理的效率和准确性。

数据与资源

versions_20250325092316.zipZIP
23.06 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	23.06 MiB
最后更新	2025年5月11日
创建于	2025年5月11日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

尼泊尔语新闻文本分类数据集NepaliNewsTextClassificationDataset-sangamthapa

数据与资源

附加信息

注册成功！