Gigatrue_Cleaned_英文摘要清理数据集

数据集概述

该数据集是对Harvard/gigaword数据集的清理版本,添加了生成的数值,并使用truecase工具进行了大小写标准化处理。数据集包含1个PDF文件,无训练/测试、数据/标签或原始/处理数据的拆分,为摘要任务研究提供基础数据。

文件详解

  • 文件名称: Gigatrue Slovak abstractive summarisation dataset.pdf
  • 文件格式: PDF (.pdf)
  • 内容说明: 该文件为文档类文件,包含清理后的摘要数据集内容,具体字段及数据结构需通过PDF文件查看。

适用场景

  • 自然语言处理研究: 用于抽象摘要模型的训练与评估
  • 文本处理技术验证: 测试大小写标准化、数值生成等数据预处理方法的效果
  • 低资源语言处理: 针对斯洛伐克语摘要任务的模型开发
  • 数据预处理方法研究: 分析清理后数据集对模型性能的影响
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.06 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。