以太坊交易欺诈检测数据集-2021-saket03p

以太坊交易欺诈检测数据集-2021-saket03p 数据来源:互联网公开数据 标签:欺诈检测,以太坊,交易数据,机器学习,成本敏感学习,数据合成,金融安全

数据概述: 本数据集是基于现有以太坊交易欺诈数据的一个聚合数据集,用于欺诈检测研究。数据集包含19682行数据,每行代表一个以太坊交易账户的特征信息,共有19个属性字段(不包括索引列)。数据集中的FLAG列标识了每个交易账户是否被标记为欺诈账户。

数据集中的特征包括索引编号、账户地址、平均发送交易间隔时间、平均接收交易间隔时间、首次和末次交易时间差、正常发送交易总数、正常接收交易总数、创建合约总数、最大接收金额、平均接收金额、平均发送金额、总发送金额、总以太币余额、ERC20代币总接收金额、ERC20代币总发送金额、发送至合约的ERC20代币总额、发送ERC20代币的唯一账户数量、接收到的唯一ERC20代币数量、通过ERC20交易发送最多的代币类型、通过ERC20交易接收最多的代币类型等。

数据用途概述: 该数据集适用于金融交易欺诈检测的机器学习研究,特别是采用成本敏感学习方法来优化欺诈检测模型。通过对数据集的训练,研究者可以开发出更有效的欺诈检测算法,减少误报和漏报,提升欺诈检测系统的准确性和可靠性。此外,数据集也可以用于教育和培训,帮助相关领域的专业人员理解欺诈检测的基本原理和应用方法。

在创建该数据集的过程中,我们面临了现有数据集规模较小、分布不均等问题,这些问题可能导致模型过拟合和对欺诈行为识别的不足。为了解决这些问题,我们使用CTGANSynthsizer模型生成了新的合成数据样本,使得数据集规模扩大了一倍,同时保持了与原始数据集85.63%的相似性,提高了数据集的代表性和泛化能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.14 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。