合成表格数据去重练习数据集-spac84
数据来源:互联网公开数据
标签:数据去重,合成数据,数据清洗,Faker,UUID,Python,数据质量,表格数据
数据概述:
本数据集是使用Python的Faker库合成生成的,主要用于练习数据库的去重操作。数据集包含一个主要数据框unique_data.csv,其中包含无重复的原始数据。其他文件(01_duplicate、02_duplicate等)仅包含来自unique_data.csv条目的重复值。用户可以将unique_data.csv与其中一个重复的csv文件或重复csv文件的一部分混合,以获得包含重复值的数据集,从而练习去重技能。
unique_data.csv的生成过程:
1. 每条记录都有一个唯一的标识符uuid4。
2. company列是从35,000个唯一条目的子集中生成的,通过random.choice(subset)调用。
3. postcode和city列是根据一个元组列表生成的,该列表包含总大小的20%的条目,用于注入重复值。
4. name列是为每个条目单独生成的,但由于Faker(包)的生成过程的性质和名称限制,可能包含重复项。
5. country列固定为US(美国)。
6. street列是从70,000个唯一条目和30,000个nan值的子集中生成的,通过random.choice(subset)调用。
7. email列是从40,000个唯一条目和30,000个nan值的子集中生成的,通过random.choice(subset)调用。
8. phone列是从55,000个唯一条目和30,000个nan值的子集中生成的,通过random.choice(subset)调用。
01_duplicate_data_random-nan.csv的生成过程:
在数据框中随机替换一定比例(50%)的单元格,用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。
02_duplicate_data_random-nan_firstname-abbreviation.csv的生成过程:
在数据框中随机替换一定比例(50%)的单元格,用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。
对name列值的70%进行名字缩写操作。
03_duplicate_data_random-nan_firstname-abbreviation_middlename-insertion.csv的生成过程:
在数据框中随机替换一定比例(50%)的单元格,用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。
对name列值的70%进行名字缩写操作。
对name列值的40%进行中间名插入操作。并且在30%的情况下对中间名进行缩写。
04_duplicate_data_random-nan_firstname-abbreviation_middlename-insertion_keyboarderror.csv的生成过程:
在数据框中随机替换一定比例(50%)的单元格,用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。
对name列值的70%进行名字缩写操作。
对name列值的40%进行中间名插入操作。并且在30%的情况下对中间名进行缩写。
对['name', 'city', 'street', 'company', 'email', 'phone']这几列值的60%进行键盘错误增强操作(https://nlpaug.readthedocs.io/en/latest/augmenter/char/keyboard.html)。
数据用途概述:
该数据集主要用于数据清洗、数据去重、数据质量评估等方面的练习。 用户可以通过该数据集学习和实践如何识别和处理重复数据,提高数据处理技能。 此外,该数据集也适用于测试和评估去重算法的性能。