教育数据PII信息检测与移除数据集MiniDS版本1-训练集与验证集-neslihanozeryildiz

教育数据PII信息检测与移除数据集MiniDS版本1-训练集与验证集-neslihanozeryildiz 数据来源:互联网公开数据 标签:PII检测,教育数据,机器学习,自然语言处理,训练集,验证集,Kaggle,数据增强 数据概述: 本数据集是基于原始教育数据构建的,用于个人身份信息(PII,Personally Identifiable Information)的检测与移除任务。数据集包含多个子集,旨在提供不同规模的训练数据,以支持模型训练与评估。

具体包括: * Mini_dataset1: train_10p.json,包含原始数据集中约10%的文档,选取了标签数量最多的文档,并尽量保持了原始数据集中各类标签的比例。 * Mini_dataset2: train_50p.json,包含原始数据集中约50%的文档,选取策略同Mini_dataset1。 * Mini_dataset3: train_70p.json,包含原始数据集中约70%的文档,选取策略同Mini_dataset1。 * Mini_dataset4: train_40p.json,包含原始数据集中约40%的文档,选取策略同Mini_dataset1。 * ValDS: val.json,验证集,大小与Mini_dataset1相同,由尽可能不包含在训练集中的文档构成,用于模型验证。

详细的数据构建过程和标签分布信息,请参考Kaggle Notebook:https://www.kaggle.com/code/neslihanozeryildiz/mini-data-set-v1

数据用途概述: 该数据集主要用于PII信息检测模型的训练、验证与评估。研究人员可以使用不同规模的训练集(Mini_dataset1-4)来探索数据量对模型性能的影响,并使用验证集(ValDS)进行模型泛化能力的评估。此外,该数据集也适用于自然语言处理、文本分类、信息提取等相关研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 49.98 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。