MASBA孟加拉语文章多级抽象摘要大规模数据集

数据集概述

该数据集为孟加拉语文章多级抽象摘要的大规模数据集,包含原始文本及三种不同压缩比的摘要(sum1、sum2、sum3),可用于评估不同摘要方法的有效性,分析摘要长度与信息完整性的权衡关系。

文件详解

数据集包含两个文件,具体说明如下: - 文件名称: BanSum.csv - 文件格式: CSV - 字段映射: - ID: 文章唯一标识符 - main: 原始孟加拉语文章文本 - sum1: 一级摘要文本(平均长度293.75字符,压缩比0.14) - sum2: 二级摘要文本(平均长度506.10字符,压缩比0.24) - sum3: 三级摘要文本(平均长度688.50字符,压缩比0.33) - 文件名称: bansum-metadata.json - 文件格式: JSON - 字段映射: - title: 数据集标题 - doi: 数字对象标识符 - licenses: 许可信息 - subtitle: 数据集副标题 - description: 数据集描述 - keywords: 关键词(含medical: ct) - resources: 资源信息

适用场景

  • 自然语言处理研究: 用于孟加拉语文本摘要模型的训练与评估
  • 摘要方法对比: 分析不同压缩比摘要的信息完整性与简洁性权衡
  • 多语言摘要技术: 探索多级抽象摘要在低资源语言中的应用效果
  • 文本压缩研究: 研究不同压缩程度对文本语义保留的影响
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 269.17 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。