数据集

数据2005年TREC公共垃圾邮件语料库电子邮件分类数据集-bayes2003

2005年TREC公共垃圾邮件语料库电子邮件分类数据集-bayes2003 数据来源：互联网公开数据标签：垃圾邮件,正常邮件,电子邮件分类,TREC,数据集,邮件处理,机器学习,数据科学

数据概述：本数据集包含从2005年TREC公共垃圾邮件语料库中提取的电子邮件，用于垃圾邮件（spam）和正常邮件（ham）的分类。数据集包含原始邮件及其处理后的正文部分，分为两个文件：email_origin.csv和email_text.csv。原始邮件文件email_origin.csv包含未处理的原始邮件内容及其标签；处理后的正文文件email_text.csv包含邮件的正文部分及其标签。原始压缩文件trec05p-1.tgz可以从数据源下载。

数据用途概述：该数据集适用于垃圾邮件检测模型的训练和评估、电子邮件分类算法的研究、机器学习和数据科学教育等多种场景。研究人员可以利用此数据集开发和优化垃圾邮件过滤系统；教师可以使用此数据集进行教学演示；数据科学从业者可以利用此数据集进行模型训练和验证。此外，该数据集也适合用于学术研究，帮助理解垃圾邮件的特征和模式。

处理步骤概述：从email_origin.csv文件中的原始邮件生成email_text.csv文件，主要步骤包括邮件正文提取、特殊字符处理、文本清理等。

参考数据集：除了本数据集外，还有其他年份的TREC垃圾邮件数据集和Enron邮件数据集，以及SpamAssassin数据集，适用于类似的研究和应用。

数据源： https://plg.uwaterloo.ca/~gvcormac/treccorpus/about.html

数据与资源

versions_20250401035821.zipZIP
604.85 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	604.85 MiB
最后更新	2025年6月1日
创建于	2025年6月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

数据2005年TREC公共垃圾邮件语料库电子邮件分类数据集-bayes2003

数据与资源

附加信息

注册成功！