合成表格数据去重练习数据集-spac84

合成表格数据去重练习数据集-spac84 数据来源:互联网公开数据 标签:数据去重,合成数据,数据清洗,Faker,UUID,Python,数据质量,表格数据 数据概述: 本数据集是使用Python的Faker库合成生成的,主要用于练习数据库的去重操作。数据集包含一个主要数据框unique_data.csv,其中包含无重复的原始数据。其他文件(01_duplicate、02_duplicate等)仅包含来自unique_data.csv条目的重复值。用户可以将unique_data.csv与其中一个重复的csv文件或重复csv文件的一部分混合,以获得包含重复值的数据集,从而练习去重技能。

unique_data.csv的生成过程: 1. 每条记录都有一个唯一的标识符uuid4。 2. company列是从35,000个唯一条目的子集中生成的,通过random.choice(subset)调用。 3. postcode和city列是根据一个元组列表生成的,该列表包含总大小的20%的条目,用于注入重复值。 4. name列是为每个条目单独生成的,但由于Faker(包)的生成过程的性质和名称限制,可能包含重复项。 5. country列固定为US(美国)。 6. street列是从70,000个唯一条目和30,000个nan值的子集中生成的,通过random.choice(subset)调用。 7. email列是从40,000个唯一条目和30,000个nan值的子集中生成的,通过random.choice(subset)调用。 8. phone列是从55,000个唯一条目和30,000个nan值的子集中生成的,通过random.choice(subset)调用。

01_duplicate_data_random-nan.csv的生成过程: 在数据框中随机替换一定比例(50%)的单元格,用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。

02_duplicate_data_random-nan_firstname-abbreviation.csv的生成过程: 在数据框中随机替换一定比例(50%)的单元格,用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。 对name列值的70%进行名字缩写操作。

03_duplicate_data_random-nan_firstname-abbreviation_middlename-insertion.csv的生成过程: 在数据框中随机替换一定比例(50%)的单元格,用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。 对name列值的70%进行名字缩写操作。 对name列值的40%进行中间名插入操作。并且在30%的情况下对中间名进行缩写。

04_duplicate_data_random-nan_firstname-abbreviation_middlename-insertion_keyboarderror.csv的生成过程: 在数据框中随机替换一定比例(50%)的单元格,用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。 对name列值的70%进行名字缩写操作。 对name列值的40%进行中间名插入操作。并且在30%的情况下对中间名进行缩写。 对['name', 'city', 'street', 'company', 'email', 'phone']这几列值的60%进行键盘错误增强操作(https://nlpaug.readthedocs.io/en/latest/augmenter/char/keyboard.html)。

数据用途概述: 该数据集主要用于数据清洗、数据去重、数据质量评估等方面的练习。 用户可以通过该数据集学习和实践如何识别和处理重复数据,提高数据处理技能。 此外,该数据集也适用于测试和评估去重算法的性能。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 28.01 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。