LASCAD_showcases_软件分类与相似应用检测数据集

数据集概述

本数据集包含来自GitHub的103个项目,是LASCAD(语言无关软件分类与相似应用检测)研究的一部分。数据集对项目源代码进行了处理,可作为软件分类和相似应用检测工具的基准数据。

文件详解

  • 文件名称:showcases_out.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含103个GitHub项目的处理后源代码,未明确区分训练/测试集、数据/标签集或原始/处理数据,无其他子文件或目录结构。

数据来源

论文“LASCAD: Language-Agnostic Software Categorization and Similar Application Detection”

适用场景

  • 软件分类研究:用于开发和测试语言无关的软件分类算法。
  • 相似应用检测:作为基准数据评估相似应用检测工具的性能。
  • 软件工程研究:分析GitHub项目的源代码特征和分类模式。
  • 基准数据集构建:为软件分类领域提供标准化的测试数据集。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 136.3 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。