SM01研究样本子集数据集

数据集概述

该数据集为SM01研究项目(制造业多语言网络并行语义爬虫)的样本子集,包含论文“Evaluation”章节提及的样本集及额外信息,以电子表格和纯文本格式存储,用于支持相关研究分析。

文件详解

  • 文本文件(.txt格式,共5个):
  • Sc_reviewed.txt、S_n.txt、Sd_sub.txt、Sc_initial.txt、Sall_300DeepScan.txt:包含URL列表等文本内容,如Sc_reviewed.txt预览显示多个网站链接
  • Excel文件(.xlsx格式,共3个):
  • Sc_initial_checkCrawl_domainindex.xlsx、SampleAll_indexExport.xlsx、SampleSubset_chart_creation_of_Sn.xlsx:电子表格格式的数据文件
  • 电子表格文件(.ods格式,共2个):
  • ReviewedSampleSetsP_A_B.ods、SampleSubSets.ods:开源电子表格格式的数据文件

适用场景

  • 制造业语义爬虫研究:用于分析多语言网络资源的语义爬取策略与样本选择方法
  • 网络资源样本分析:支持对制造业相关网站样本集的特征提取与有效性评估
  • 数据处理方法验证:为并行语义爬虫项目的数据处理流程提供样本数据支持
  • 学术论文补充验证:作为SM01项目论文“Evaluation”章节结果的辅助验证数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.16 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。