微软恶意软件样本向量化数据集

微软恶意软件样本向量化数据集 数据来源:互联网公开数据 标签:恶意软件,样本,向量化,机器学习,安全分析 数据概述: 本数据集包含从微软恶意软件分类挑战(BIG 2015)竞赛原始数据集中提取并向量化的随机字节文件样本。原始数据集来源于http://arxiv.org/abs/1802.10135。原始的训练和测试数据集各约为18GB,而本数据集从中随机抽取并进行了向量化处理,总大小约为15MB。数据集中的字节文件样本来自多个恶意软件类别,每个类别(除Simda外)选取了等数量的样本。字节数据以十六进制字符形式呈现,并经过预处理后,使用scikit-learn的CountVectorizer进行向量化。 数据用途概述: 该数据集适用于恶意软件分类、安全分析和机器学习研究等多种场景。研究者可以利用此数据集训练和评估恶意软件检测模型;安全分析师可以借助数据识别和分析潜在的恶意活动;教育机构可以使用数据集进行教学和培训,帮助学生理解恶意软件分析的相关技术。需要注意的是,原始数据集中恶意软件类别5(Simda)的字节文件样本数量仅为42个,因此在分析时需考虑这一限制。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 6.6 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。