数据集概述
本数据集包含用于实现基于Guided LDA算法和SDOT取证框架的取证文件分类系统的代码,以及研究中使用的辅助文件。文件总数为20个,无目录结构,包含代码文件、文档文件和数据文件三大类,涵盖字典、密码列表、正则表达式、地址列表、哈希值等辅助数据,支持取证文件分类相关实验与研究。
文件详解
- 代码文件(3个)
- 文件名称:glda.py、utils.py、test_glda.py
- 文件格式:.py
- 字段映射介绍:实现Guided LDA算法和SDOT框架的核心代码,包含算法逻辑、工具函数及测试脚本
- 文档文件(11个)
- 文件名称:milw0rm-dictionary.txt、500-worst-passwords.txt、creditcard regular expressions.txt、windows-betterdefaultpasslist.txt、seedwords.txt、default-passwords.csv、list of collocations.pdf、emoticons list.docx
- 文件格式:.txt(6个)、.pdf(1个)、.docx(1个)、.csv(1个)
- 字段映射介绍:包含字典、密码列表、正则表达式、种子词、搭配列表、表情符号列表等辅助文档数据
- 数据文件(6个)
- 文件名称:Book1.xlsx-us-social-security-22-cvs.csv、Book1.xlsx-credit-card-number.csv、list_of_real_usa_addresses.csv、sha256 hashes in lakhs.xlsx
- 文件格式:.csv(4个)、.xlsx(1个)
- 字段映射介绍:包含美国社会安全号、信用卡号、真实地址列表、SHA256哈希值等实验用数据,支持取证文件分类的测试与验证
适用场景
- 数字取证技术研究:用于开发和验证基于SDOT框架的取证文件分类算法性能
- 自然语言处理在取证中的应用:基于Guided LDA算法的文本分类实验与优化
- 敏感信息检测:利用正则表达式、字典等数据,测试敏感数据(如信用卡号、社会安全号)的识别能力
- 密码安全分析:通过密码列表数据,研究常见密码特征及安全强度评估方法
- 哈希值验证:使用SHA256哈希值数据,支持文件完整性校验相关实验