数据集

微软恶意软件样本向量化数据集

微软恶意软件样本向量化数据集数据来源：互联网公开数据标签：恶意软件,样本,向量化,机器学习,安全分析数据概述：本数据集包含从微软恶意软件分类挑战（BIG 2015）竞赛原始数据集中提取并向量化的随机字节文件样本。原始数据集来源于http://arxiv.org/abs/1802.10135。原始的训练和测试数据集各约为18GB，而本数据集从中随机抽取并进行了向量化处理，总大小约为15MB。数据集中的字节文件样本来自多个恶意软件类别，每个类别（除Simda外）选取了等数量的样本。字节数据以十六进制字符形式呈现，并经过预处理后，使用scikit-learn的CountVectorizer进行向量化。数据用途概述：该数据集适用于恶意软件分类、安全分析和机器学习研究等多种场景。研究者可以利用此数据集训练和评估恶意软件检测模型；安全分析师可以借助数据识别和分析潜在的恶意活动；教育机构可以使用数据集进行教学和培训，帮助学生理解恶意软件分析的相关技术。需要注意的是，原始数据集中恶意软件类别5（Simda）的字节文件样本数量仅为42个，因此在分析时需考虑这一限制。

数据与资源

微软恶意软件样本向量化数据集.zipZIP
6.60 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	6.6 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

微软恶意软件样本向量化数据集

数据与资源

附加信息

注册成功！