找到3个数据集

标签: 网页爬取

过滤结果
  • 加泰罗尼亚政府网页爬取语料库2020

    2025年12月13日 30 96 90

    数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
    packageimg
  • 商品信息哈希值数据集ProductInformationHashValuesDataset-eguhopor

    2025年5月30日 30 70 67

    商品信息哈希值数据集ProductInformationHashValuesDataset-eguhopor 数据来源:互联网公开数据 标签:商品信息, 哈希值, 数据比对, 数据清洗, 文本分析, 零售数据, 数据安全, 网页爬取 数据概述: 该数据集包含来自多个电商网站的商品信息,记录了商品的名称、URL链接以及对应的哈希值。主要特征如下:...
    packageimg
  • 萨斯特拉大学Sastraedu网页爬取邻接表数据集-ashiktcy

    2025年4月25日 30 74 7

    萨斯特拉大学Sastraedu网页爬取邻接表数据集-ashiktcy 数据来源:互联网公开数据 标签:网页爬取,邻接表,数据集,网络分析,图数据,信息检索,教育,大学 数据概述: 该数据集包含了从萨斯特拉大学(Sastraedu)官方网站爬取的网页邻接表信息。主要特征如下: 时间跨度:数据爬取时间为[具体爬取时间,例如2024年5月]。...
    packageimg