不同职业人群个人隐私数据生成与优化数据集-v1-v20-takanashihumbert

不同职业人群个人隐私数据生成与优化数据集-v1-v20-takanashihumbert 数据来源:互联网公开数据 标签:个人隐私,数据生成,数据优化,职业人群,学生,非学生,GPT-3.5, Gemini, GPT-4, 数据安全,隐私保护 数据概述: 本数据集整合了多个版本(v1-v20)的个人隐私数据,这些数据由不同模型(GPT-3.5, Gemini, GPT-4)生成,并经过了多次优化和提炼。数据集涵盖了不同职业人群(包括学生和非学生)的个人信息模拟数据,旨在为隐私保护、数据安全和相关研究提供实验基础。其中,0.9k和1.2k的写作者职业为非学生,1.5k的写作者为不同阶段的学生。数据集包含jojo_pii_refine、pii_with_document v1-v4以及gpt4_10k.json等文件,jojo_pii_refine版本从v1到v20,其中v1-v12被用于jojo_5k。

数据用途概述: 该数据集主要用于以下几个方面: 1. 隐私保护技术研究:用于测试和评估各种隐私保护算法,例如差分隐私、k-匿名等。 2. 数据安全研究:用于模拟数据泄露场景,测试安全防护措施的有效性。 3. 个人信息保护政策研究:为制定和完善个人信息保护政策提供数据支持。 4. 机器学习模型训练:用于训练识别和处理个人隐私信息的机器学习模型。 5. 教育与培训:作为案例,帮助学习者理解个人隐私数据的生成、风险以及保护策略。

数据与资源

附加信息

字段
版本 1.0
最后更新 六月 1, 2025, 00:49 (UTC)
创建于 六月 1, 2025, 00:48 (UTC)