教育数据PII信息检测与移除数据集MiniDS版本1-训练集与验证集-neslihanozeryildiz
数据来源:互联网公开数据
标签:PII检测,教育数据,机器学习,自然语言处理,训练集,验证集,Kaggle,数据增强
数据概述:
本数据集是基于原始教育数据构建的,用于个人身份信息(PII,Personally Identifiable Information)的检测与移除任务。数据集包含多个子集,旨在提供不同规模的训练数据,以支持模型训练与评估。
具体包括:
* Mini_dataset1: train_10p.json,包含原始数据集中约10%的文档,选取了标签数量最多的文档,并尽量保持了原始数据集中各类标签的比例。
* Mini_dataset2: train_50p.json,包含原始数据集中约50%的文档,选取策略同Mini_dataset1。
* Mini_dataset3: train_70p.json,包含原始数据集中约70%的文档,选取策略同Mini_dataset1。
* Mini_dataset4: train_40p.json,包含原始数据集中约40%的文档,选取策略同Mini_dataset1。
* ValDS: val.json,验证集,大小与Mini_dataset1相同,由尽可能不包含在训练集中的文档构成,用于模型验证。
详细的数据构建过程和标签分布信息,请参考Kaggle Notebook:https://www.kaggle.com/code/neslihanozeryildiz/mini-data-set-v1。
数据用途概述:
该数据集主要用于PII信息检测模型的训练、验证与评估。研究人员可以使用不同规模的训练集(Mini_dataset1-4)来探索数据量对模型性能的影响,并使用验证集(ValDS)进行模型泛化能力的评估。此外,该数据集也适用于自然语言处理、文本分类、信息提取等相关研究。