数据集

合成表格数据去重练习数据集-spac84

合成表格数据去重练习数据集-spac84 数据来源：互联网公开数据标签：数据去重,合成数据,数据清洗,Faker,UUID,Python,数据质量,表格数据数据概述：本数据集是使用Python的Faker库合成生成的，主要用于练习数据库的去重操作。数据集包含一个主要数据框unique_data.csv，其中包含无重复的原始数据。其他文件（01_duplicate、02_duplicate等）仅包含来自unique_data.csv条目的重复值。用户可以将unique_data.csv与其中一个重复的csv文件或重复csv文件的一部分混合，以获得包含重复值的数据集，从而练习去重技能。

unique_data.csv的生成过程： 1. 每条记录都有一个唯一的标识符uuid4。 2. company列是从35,000个唯一条目的子集中生成的，通过random.choice(subset)调用。 3. postcode和city列是根据一个元组列表生成的，该列表包含总大小的20%的条目，用于注入重复值。 4. name列是为每个条目单独生成的，但由于Faker（包）的生成过程的性质和名称限制，可能包含重复项。 5. country列固定为US（美国）。 6. street列是从70,000个唯一条目和30,000个nan值的子集中生成的，通过random.choice(subset)调用。 7. email列是从40,000个唯一条目和30,000个nan值的子集中生成的，通过random.choice(subset)调用。 8. phone列是从55,000个唯一条目和30,000个nan值的子集中生成的，通过random.choice(subset)调用。

01_duplicate_data_random-nan.csv的生成过程：在数据框中随机替换一定比例（50%）的单元格，用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。

02_duplicate_data_random-nan_firstname-abbreviation.csv的生成过程：在数据框中随机替换一定比例（50%）的单元格，用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。对name列值的70%进行名字缩写操作。

03_duplicate_data_random-nan_firstname-abbreviation_middlename-insertion.csv的生成过程：在数据框中随机替换一定比例（50%）的单元格，用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。对name列值的70%进行名字缩写操作。对name列值的40%进行中间名插入操作。并且在30%的情况下对中间名进行缩写。

04_duplicate_data_random-nan_firstname-abbreviation_middlename-insertion_keyboarderror.csv的生成过程：在数据框中随机替换一定比例（50%）的单元格，用np.nan填充。['company', 'name', 'uuid4']这三列被排除在此增强之外。对name列值的70%进行名字缩写操作。对name列值的40%进行中间名插入操作。并且在30%的情况下对中间名进行缩写。对['name', 'city', 'street', 'company', 'email', 'phone']这几列值的60%进行键盘错误增强操作(https://nlpaug.readthedocs.io/en/latest/augmenter/char/keyboard.html)。

数据用途概述：该数据集主要用于数据清洗、数据去重、数据质量评估等方面的练习。用户可以通过该数据集学习和实践如何识别和处理重复数据，提高数据处理技能。此外，该数据集也适用于测试和评估去重算法的性能。

数据与资源

versions_20250405025549.zipZIP
28.01 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	28.01 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

合成表格数据去重练习数据集-spac84

数据与资源

附加信息

注册成功！