数据集

越南新闻文本摘要数据集VietnameseNewsTextSummarizationDataset-uyentruong

数据来源：互联网公开数据

标签：文本摘要, 自然语言处理, 越南语, 机器翻译, 深度学习, 文本生成, 语料库, 数据集

数据概述：该数据集包含来自越南新闻的文章及其对应的摘要，旨在用于文本摘要任务。主要特征如下：时间跨度：数据未明确标注时间，可视为静态语料库。地理范围：数据来源于越南新闻，内容涵盖越南社会、政治、经济、文化等多个领域。数据维度：数据集包含三个CSV文件：train.csv、val.csv和test.csv。每个文件包含三个字段：“file”（原始文章的文件名）、“original”（原始文章文本）和“summary”（对应文章的摘要）。数据格式：CSV格式，便于数据读取、处理和分析。原始文本经过分词处理。来源信息：数据来源于公开的越南新闻网站，文章和摘要由人工生成或经人工校对。该数据集适合用于文本摘要、信息提取和自然语言生成等任务。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理领域的研究，如摘要生成算法的开发与评估，以及多语言文本处理研究等。行业应用：为新闻媒体、内容聚合平台等提供数据支持，可用于构建自动新闻摘要系统、内容推荐引擎等。决策支持：支持信息检索和知识管理，帮助用户快速获取新闻关键信息，提高信息处理效率。教育和培训：作为自然语言处理、机器翻译等课程的实践素材，帮助学生和研究人员熟悉文本摘要技术。此数据集特别适合用于研究越南语文本的摘要生成，并探索不同摘要算法的性能表现，有助于提升信息处理效率和内容理解能力。

数据与资源

versions_20250326015947.zipZIP
145.32 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	145.32 MiB
最后更新	2025年5月30日
创建于	2025年5月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

越南新闻文本摘要数据集VietnameseNewsTextSummarizationDataset-uyentruong

数据与资源

附加信息

注册成功！