信用卡交易欺诈检测模拟数据集2019年至2020年-kartik2112
数据来源:互联网公开数据
标签:信用卡,交易,欺诈检测,模拟数据,客户,商户,数据生成,高斯分布,参数配置
数据概述:
本数据集包含2019年1月1日至2020年12月31日期间模拟的信用卡交易记录,涵盖了1000名客户与800家商户之间的交易,包括正常交易和欺诈交易。数据集通过Sparkov Data Generation工具生成,该工具由Brandon Harris开发并开源在GitHub上。
数据集生成过程包括:
1. 使用预定义的商户、客户和交易类别列表。
2. 通过Python库“faker”创建中间交易列表,基于指定的客户和商户数量。
3. 根据选择的交易配置文件(例如“25-50岁农村地区女性成年.json”),生成具有特定分布特性的交易数据。配置文件定义了每日交易次数范围、每周交易分布以及各类交易金额的正态分布参数(均值和标准差)。
数据集包含以下字段:
- 客户ID
- 商户ID
- 交易时间
- 交易金额
- 交易类别
- 是否欺诈(标签)
数据用途概述:
该数据集适用于信用卡交易欺诈检测算法的研发、测试与验证。研究人员可以利用此数据集开发和评估新的欺诈检测模型;金融机构可以使用此数据集进行欺诈检测系统的性能测试;教育机构可以将此数据集用于教学和培训,帮助学生理解信用卡交易欺诈检测的基本原理和方法。通过对这些模拟数据的分析,可以帮助提高欺诈检测系统的准确性和效率。