找到2个数据集

格式: ZIP 标签: 网页存档

过滤结果
  • spn_Source_Internet_Archive网页存档服务实验数据_压缩包

    2026年1月15日 30 22 20

    数据集概述 本数据集包含基于Internet Archive的Save Page Now服务生成的WARC格式网页存档数据的实验内容,仅含一个压缩文件,用于网页存档相关的实验研究。 文件详解 文件名称:edsu/spn-v0.4.0.zip 文件格式:ZIP 字段映射介绍:压缩包内包含来自Internet Archive Save Page...
    packageimg
  • Webis网页错误标注数据集2019

    2025年12月8日 30 25 5

    数据集概述 本数据集包含对Webis-Web-Archive-17中一万个网页存档的多种标注,涵盖广告占比、页面完整性、加载状态、色情内容等类别,以及弹窗、验证码、错误信息的显示程度,为网页内容质量分析提供标注数据支持。 文件详解 该数据集包含四个文件,具体说明如下: - 数据文件: - webis-web-archive-17-content-...
    packageimg