找到86个数据集

标签: 网络爬虫

过滤结果
  • 葡萄牙语编程练习数据集PROGRAMEXBR

    2025年12月24日 30 41 14

    数据集概述 该数据集为葡萄牙语编程练习数据集,包含编程练习的说明、测试用例及元数据,通过网络爬虫技术从指定平台收集并建模,旨在填补巴西葡萄牙语编程练习数据集的空白。 文件详解 文件名称:PROGRAMEXBR: A Dataset of Programming Exercises in Portuguese.zip 文件格式:ZIP压缩包...
    packageimg
  • 葡萄牙风能治理公众参与数据集2023

    2025年12月10日 30 106 45

    数据集概述 该数据集是《A quiet public? Procedural justice in Portuguese wind energy governance》期刊文章的配套数据,包含截至2023年葡萄牙风电和分散式太阳能项目公众咨询流程的网络爬虫数据库,以及用于分析数据的R Markdown文件,为研究葡萄牙能源治理中的公众参与提供支持。...
    packageimg
  • SM01_Web爬虫基准测试QES15与QES30实验结果数据集

    2025年11月29日 30 136 87

    数据集概述 该数据集包含SM01研究项目中QES15和QES30两个Web爬虫基准测试的实验结果,对比BF、PR、HITS和SM四种爬虫在塞尔维亚金属制造领域多语言网站子集上的性能,两个实验的单域名最大页面加载限制分别为15和30页。 文件详解 QES15_Sd_reports.zip:ZIP格式压缩包,可能包含QES15实验的详细报告文件...
    packageimg
  • RateMyProfessor研究项目网络爬虫与数据分析代码

    2025年11月28日 30 81 18

    数据集概述 该数据集包含RateMyProfessor研究项目相关的网络爬虫代码与数据分析代码,以压缩包形式存储,为相关研究提供代码资源支持。 文件详解 文件名称: RMP_code.zip 文件格式: ZIP (.zip) 文件内容: 压缩包内包含RateMyProfessor研究项目的网络爬虫代码与数据分析代码,具体代码内容未提供预览。 适用场景...
    packageimg
  • DLC并行执行模式网络爬取实验报告_SM01

    2025年11月28日 30 161 58

    数据集概述 本数据集为SM01研究项目的实验报告,聚焦DLC并行执行模式下的网络爬取。通过设置不同Load Take(LT)值,分析爬取质量与性能增益的关系,实验基于Sc和Sn两个样本集,包含原始数据与分析结果文件。 文件详解 样本集文件: Sn_subset.txt:TXT格式,包含Sn样本集的目标网站URL列表...
    packageimg
  • 最高审计机关决策分析Python脚本集_潜在狄利克雷分配法

    2025年11月28日 30 20 6

    数据集概述 本数据集为分析最高审计机关决策的Python脚本集合,采用潜在狄利克雷分配(LDA)方法,包含数据爬取、处理、分析及环境配置文件,支持审计决策文本的主题建模研究。 文件详解 apply_method.ipynb:Jupyter Notebook格式,调用sai_data.py中的函数执行LDA分析,实现审计决策文本的主题建模流程...
    packageimg
  • 巴西监狱与再社会化偏好相关Instagram脚本数据集

    2025年11月27日 30 65 46

    数据集概述 该数据集包含用于从Instagram平台检索与“巴西监狱与再社会化偏好”相关内容的脚本文件,具体为获取Reels链接和提取视频的自动化脚本,支持相关主题内容的批量采集工作。 文件详解 目录结构: 数据集包含1个主目录 What the Brazilian Likes About Prison and Resocial/,目录深度为1级...
    packageimg
  • SM01_制造业多语言网页并行语义爬虫实验报告

    2025年11月26日 30 138 15

    数据集概述 本数据集为SM01项目(制造业多语言网页并行语义爬虫)的实验报告,聚焦JLC并行执行模式下不同并行线程数对爬虫效率的影响,包含实验配置、结果及相关资源链接等内容。 文件详解 文件名称:PJLC_overview_and_charts.xlsx,文件格式:.xlsx,可能包含实验结果概览及可视化图表数据...
    packageimg
  • 网页内容安全检测数据集

    2025年11月6日 30 151 73

    网页内容安全检测数据集_Web_Content_Security_Detection_Dataset 数据来源:互联网公开数据 标签:网页安全, 网络爬虫, HTML, 文本分类, 恶意网页, 机器学习, 数据挖掘, 安全检测 数据概述: 该数据集包含从互联网上抓取的网页内容,记录了网页的URL、HTML源代码以及对应的安全标签。主要特征如下:...
    packageimg
  • NFT稀有性集合数据集-2023年-rutumpatil

    2025年6月1日 30 61 49

    NFT稀有性集合数据集-2023年-rutumpatil 数据来源:互联网公开数据 标签:NFT,稀有性,区块链,艺术,加密货币,集合,数据,网络爬虫,数据集生成 数据概述:...
    packageimg
  • 网站XML站点地图数据集

    2025年5月31日 30 203 43

    网站XML站点地图数据集 数据来源:互联网公开数据 标签:XML,站点地图,CSV格式,网络爬虫,数据提取,站点分析,网页抓取,SEO优化,数据集成 数据概述: 本数据集包含多个网站的XML站点地图,以CSV格式存储。数据集由advertools函数sitemap_to_df生成,支持通过sitemap...
    packageimg
  • 网页抓取数据集CrawlData-fdfyaytkt

    2025年5月30日 30 84 52

    网页抓取数据集CrawlData-fdfyaytkt 数据来源:互联网公开数据 标签:网页抓取,数据集,文本分析,自然语言处理,网络数据,信息检索,数据挖掘,网络爬虫 数据概述: 该数据集包含了从互联网上抓取到的网页内容数据,涵盖了各种主题和来源。主要特征如下: 时间跨度: 数据记录的时间范围不定,取决于网页抓取的具体时间。 地理范围:...
    packageimg
  • 图书ISBN信息抓取数据集-robinfaro13

    2025年5月29日 30 158 41

    图书ISBN信息抓取数据集-robinfaro13 数据来源:互联网公开数据 标签:图书,ISBN,数据集,网络爬虫,文本分析,图书信息,出版物,数据挖掘 数据概述: 该数据集包含了通过网络抓取获得的图书ISBN信息,记录了图书的基本信息,主要特征如下: 时间跨度:数据抓取时间集中在近期。 地理范围:数据主要来源于全球范围内的图书出版信息。...
    packageimg
  • 网页HTML代码数据集WebpageHTMLCodeDataset-moemenebdelli

    2025年5月11日 30 119 116

    网页HTML代码数据集WebpageHTMLCodeDataset-moemenebdelli 数据来源:互联网公开数据 标签:HTML, 网页, 网络爬虫, 数据抓取, 文本分析, 网页结构, 数据清洗, 自然语言处理 数据概述: 该数据集包含从互联网抓取的HTML网页代码,记录了网页的结构化文本信息。主要特征如下:...
    packageimg
  • 网页代码HTML标签分类数据集WebCodeHTMLTagClassification-dkdrack

    2025年5月10日 30 28 16

    网页代码HTML标签分类数据集WebCodeHTMLTagClassification-dkdrack 数据来源:互联网公开数据 标签:HTML, 网页代码, 文本分类, 数据标注, 机器学习, 网络爬虫, 前端开发, 自然语言处理 数据概述: 该数据集包含来自网页抓取的数据,记录了HTML代码片段及其对应的文本标签描述。主要特征如下:...
    packageimg
  • 英国网上书店书籍元数据数据集-2023

    2025年5月6日 30 113 99

    英国网上书店书籍元数据数据集-2023 数据来源:互联网公开数据 标签:书籍元数据,网络爬虫,图书信息,分类,描述,图像,ISBN,评分,计算机视觉,NLP 数据概述: 本数据集包含从bookdepository.com网站爬取的大量书籍元数据,涵盖书籍的标题、描述、尺寸、类别、封面图像等关键信息。数据集中的每个样本包含以下字段: authors:...
    packageimg
  • 电影下载链接数据集MovieDownloadLinks-riz2001

    2025年5月1日 30 31 9

    电影下载链接数据集MovieDownloadLinks-riz2001 数据来源:互联网公开数据 标签:电影, 视频, 下载链接, 盗版, 资源分享, 影视资源, 数据抓取, 网络爬虫 数据概述: 该数据集包含来自互联网的数据,记录了电影的下载链接信息。主要特征如下: 时间跨度:数据未标明具体时间,可视为一个静态的电影下载链接集合。...
    packageimg
  • 小说章节链接数据分析数据集NovelChapterLinkDataAnalysis-sharathdhd

    2025年5月1日 30 43 41

    小说章节链接数据分析数据集NovelChapterLinkDataAnalysis-sharathdhd 数据来源:互联网公开数据 标签:小说, 章节, 链接, 网络爬虫, 文本分析, 数据挖掘, 动漫, 漫画 数据概述: 该数据集包含来自互联网的小说章节链接信息,记录了小说章节的URL、标题和章节号。主要特征如下:...
    packageimg
  • 体育赛事链接数据SportsEventsLinks-mostafaashraf1

    2025年4月30日 30 182 16

    体育赛事链接数据SportsEventsLinks-mostafaashraf1 数据来源:互联网公开数据 标签:体育赛事, 链接, 数据抓取, 网络爬虫, 足球, 数据分析, 赛事信息, 资源链接 数据概述: 该数据集包含来自网络的数据,记录了体育赛事相关的链接信息。主要特征如下: 时间跨度: 数据未标明具体时间,视作静态链接数据集使用。 地理范围:...
    packageimg
  • 学生就业信息HTML数据清洗数据集StudentPlacementInformationHTMLDataCleaningDataset-abhisen12

    2025年4月29日 30 62 34

    学生就业信息HTML数据清洗数据集StudentPlacementInformationHTMLDataCleaningDataset-abhisen12 数据来源:互联网公开数据 标签:就业信息, 数据清洗, HTML解析, 数据预处理, 文本挖掘, 网络爬虫, 数据质量, 机器学习 数据概述:...
    packageimg