2005年TREC公共垃圾邮件语料库电子邮件分类数据集-bayes2003
数据来源:互联网公开数据
标签:垃圾邮件,正常邮件,电子邮件分类,TREC,数据集,邮件处理,机器学习,数据科学
数据概述:
本数据集包含从2005年TREC公共垃圾邮件语料库中提取的电子邮件,用于垃圾邮件(spam)和正常邮件(ham)的分类。数据集包含原始邮件及其处理后的正文部分,分为两个文件:email_origin.csv和email_text.csv。原始邮件文件email_origin.csv包含未处理的原始邮件内容及其标签;处理后的正文文件email_text.csv包含邮件的正文部分及其标签。原始压缩文件trec05p-1.tgz可以从数据源下载。
数据用途概述:
该数据集适用于垃圾邮件检测模型的训练和评估、电子邮件分类算法的研究、机器学习和数据科学教育等多种场景。研究人员可以利用此数据集开发和优化垃圾邮件过滤系统;教师可以使用此数据集进行教学演示;数据科学从业者可以利用此数据集进行模型训练和验证。此外,该数据集也适合用于学术研究,帮助理解垃圾邮件的特征和模式。
处理步骤概述:
从email_origin.csv文件中的原始邮件生成email_text.csv文件,主要步骤包括邮件正文提取、特殊字符处理、文本清理等。
参考数据集:
除了本数据集外,还有其他年份的TREC垃圾邮件数据集和Enron邮件数据集,以及SpamAssassin数据集,适用于类似的研究和应用。
数据源:
https://plg.uwaterloo.ca/~gvcormac/treccorpus/about.html