找到2个数据集

标签: robotstxt

过滤结果
  • robots_txt_西班牙25家媒体AI爬虫访问政策分析数据集2025

    2026年1月22日 30 116 42

    数据集概述 本数据集收录西班牙25家主要媒体的robots.txt文件中AI爬虫访问政策信息,包含媒体特征、特定AI机器人封锁情况、地理偏向分析等结构化数据,共7个文件,覆盖CSV、MD、JSON、XLSX格式,可用于研究媒体对AI爬虫的访问限制策略。 文件详解 README_dataset.md 文件格式:MD...
    packageimg
  • Common_Crawl_Based_站点地图与机器人协议链接综合数据集2023

    2026年1月15日 30 7 6

    数据集概述 本数据集包含从Common Crawl 2023-50 WARC档案中提取的站点地图(Sitemaps)和机器人协议(robots.txt)链接综合列表,按Curlie.org目录顶级标签分类,提供各分类下的链接数量统计,可用于网络数据采集、网站结构分析等场景。 文件详解 站点地图压缩包 文件名称:all-...
    packageimg