KDPII_Based_韩语对话文本PII去标识化数据集_Revised

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

KDPII_Based_韩语对话文本PII去标识化数据集_Revised

数据集概述

本数据集为KDPII数据集，是针对韩语对话文本的个人可识别信息（PII）去标识化任务构建的新型数据集。包含丰富的韩语对话文本，整合了大量韩语PII实例，旨在解决韩语隐私保护领域语言模型训练资源不足的问题，为韩语PII去标识化技术研发提供支撑。

文件详解

文件名称：PII_dataset_V3.json
文件格式：JSON
字段映射介绍：未提供具体字段信息，推测包含韩语对话文本内容及对应的PII标注信息，用于训练和评估PII去标识化模型。

适用场景

韩语PII去标识化模型训练: 用于训练和优化针对韩语对话文本的PII识别与去标识化算法模型。
韩语隐私保护技术评估: 评估现有语言模型在韩语PII识别任务中的性能表现，分析模型对通用PII与韩语特定PII的识别差异。
韩语自然语言处理资源补充: 丰富韩语隐私保护领域的语料资源，推动相关技术研究与应用。
跨语言PII处理对比研究: 与英语、中文等语言的PII数据集对比，分析不同语言PII处理的技术特点与挑战。

数据与资源

16759166.zipZIP
31.71 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	31.71 MiB
最后更新	2026年1月21日
创建于	2026年1月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？