数据集概述
该数据集包含三万二千五百二十一篇越南新闻文章,专为自然语言处理领域的多任务学习应用设计,聚焦摘要生成与关键词提取任务。数据以JSON、CSV及XLS格式存储,每条记录含文章ID、标题、正文、摘要、关键词及主题字段,为多任务模型的开发与基准测试提供支持。
文件详解
该数据集由七个文件组成,具体说明如下:
- 说明文档:
- Readme.md: Markdown格式的说明文档,包含数据集概述、统计信息及字段说明。
- 英文版本数据文件:
- vnnews_multitask_EN.xlsx: Excel格式文件,包含英文标注的越南新闻数据。
- vnnews_multitask_EN.csv: CSV格式文件,包含英文标注的越南新闻数据。
- vnnews_multitask_EN.json: JSON格式文件,包含英文标注的越南新闻数据。
- 越南语版本数据文件:
- vnnews_multitask_VN.xlsx: Excel格式文件,包含越南语标注的越南新闻数据。
- vnnews_multitask_VN.csv: CSV格式文件,包含越南语标注的越南新闻数据。
- vnnews_multitask_VN.json: JSON格式文件,包含越南语标注的越南新闻数据。
- 通用字段说明(所有数据文件):
- id: 文章唯一标识符
- title: 文章标题
- content: 文章正文(已清洗的原始文本)
- summary: 人工撰写的摘要
- keywords: 人工选择的关键词列表
- topic: 文章所属主题(如教育、医疗、政治等)
适用场景
- 自然语言处理模型开发: 用于训练和评估同时完成摘要生成与关键词提取的多任务模型
- 基准测试: 作为越南语新闻领域多任务学习模型的性能评估基准
- 跨语言NLP研究: 支持越南语与其他语言间的摘要及关键词提取模型迁移研究
- 新闻内容分析: 辅助新闻主题分类、内容摘要自动化等应用场景的算法开发