企业邮件垃圾分类样本数据集

数据来源:

该数据集由美国能源公司 Enron 的内部通信记录构成,原始数据整理自 Enron Email Dataset,后经分类标注为“垃圾邮件”与“正常邮件”(Spam/Ham)两类,用于自然语言处理任务中的文本分类研究。

字段定义:

Message ID:邮件编号,唯一标识每封邮件

Subject:邮件主题

Message:邮件正文内容

Spam/Ham:邮件类型标签(spam 表示垃圾邮件,ham 表示正常邮件)

Date:邮件发送日期,格式为 yyyy/mm/dd

数据特征:

数据包含结构化的主题信息与非结构化的邮件正文文本,并配有二元分类标签(Spam/Ham)。邮件内容丰富,涵盖公司日常运营、合同沟通、业务安排等多个场景,具有较强的语境真实性。部分记录可能包含邮件转发与历史内容嵌套。

适用场景:

垃圾邮件识别模型训练与评估

文本分类算法开发与对比实验

企业通信行为研究

信息抽取与命名实体识别任务测试集

packageimg

数据与资源

附加信息

字段
数据集大小 14.92 MiB
最后更新 2025年6月19日
创建于 2025年6月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。