数据集

越南新闻多任务学习数据集1_0

数据集概述

该数据集包含三万二千五百二十一篇越南新闻文章，专为自然语言处理领域的多任务学习应用设计，聚焦摘要生成与关键词提取任务。数据以JSON、CSV及XLS格式存储，每条记录含文章ID、标题、正文、摘要、关键词及主题字段，为多任务模型的开发与基准测试提供支持。

文件详解

该数据集由七个文件组成，具体说明如下： - 说明文档: - Readme.md: Markdown格式的说明文档，包含数据集概述、统计信息及字段说明。 - 英文版本数据文件: - vnnews_multitask_EN.xlsx: Excel格式文件，包含英文标注的越南新闻数据。 - vnnews_multitask_EN.csv: CSV格式文件，包含英文标注的越南新闻数据。 - vnnews_multitask_EN.json: JSON格式文件，包含英文标注的越南新闻数据。 - 越南语版本数据文件: - vnnews_multitask_VN.xlsx: Excel格式文件，包含越南语标注的越南新闻数据。 - vnnews_multitask_VN.csv: CSV格式文件，包含越南语标注的越南新闻数据。 - vnnews_multitask_VN.json: JSON格式文件，包含越南语标注的越南新闻数据。 - 通用字段说明（所有数据文件）: - id: 文章唯一标识符 - title: 文章标题 - content: 文章正文（已清洗的原始文本） - summary: 人工撰写的摘要 - keywords: 人工选择的关键词列表 - topic: 文章所属主题（如教育、医疗、政治等）

适用场景

自然语言处理模型开发: 用于训练和评估同时完成摘要生成与关键词提取的多任务模型
基准测试: 作为越南语新闻领域多任务学习模型的性能评估基准
跨语言NLP研究: 支持越南语与其他语言间的摘要及关键词提取模型迁移研究
新闻内容分析: 辅助新闻主题分类、内容摘要自动化等应用场景的算法开发

数据与资源

dvmw3fj5j7-3.zipZIP
255.81 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	255.81 MiB
最后更新	2025年11月28日
创建于	2025年11月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。