越南新闻多任务学习数据集1_0

数据集概述

该数据集包含三万二千五百二十一篇越南新闻文章,专为自然语言处理领域的多任务学习应用设计,聚焦摘要生成与关键词提取任务。数据以JSON、CSV及XLS格式存储,每条记录含文章ID、标题、正文、摘要、关键词及主题字段,为多任务模型的开发与基准测试提供支持。

文件详解

该数据集由七个文件组成,具体说明如下: - 说明文档: - Readme.md: Markdown格式的说明文档,包含数据集概述、统计信息及字段说明。 - 英文版本数据文件: - vnnews_multitask_EN.xlsx: Excel格式文件,包含英文标注的越南新闻数据。 - vnnews_multitask_EN.csv: CSV格式文件,包含英文标注的越南新闻数据。 - vnnews_multitask_EN.json: JSON格式文件,包含英文标注的越南新闻数据。 - 越南语版本数据文件: - vnnews_multitask_VN.xlsx: Excel格式文件,包含越南语标注的越南新闻数据。 - vnnews_multitask_VN.csv: CSV格式文件,包含越南语标注的越南新闻数据。 - vnnews_multitask_VN.json: JSON格式文件,包含越南语标注的越南新闻数据。 - 通用字段说明(所有数据文件): - id: 文章唯一标识符 - title: 文章标题 - content: 文章正文(已清洗的原始文本) - summary: 人工撰写的摘要 - keywords: 人工选择的关键词列表 - topic: 文章所属主题(如教育、医疗、政治等)

适用场景

  • 自然语言处理模型开发: 用于训练和评估同时完成摘要生成与关键词提取的多任务模型
  • 基准测试: 作为越南语新闻领域多任务学习模型的性能评估基准
  • 跨语言NLP研究: 支持越南语与其他语言间的摘要及关键词提取模型迁移研究
  • 新闻内容分析: 辅助新闻主题分类、内容摘要自动化等应用场景的算法开发
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 255.81 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。