AI生成文本数据集

AI生成文本数据集 数据来源:互联网公开数据
标签:AI生成文本,隐私信息识别,数据格式转换,Gemini模型,Gemma模型,PII检测,教育研究

数据概述:
本数据集包含使用Google AI的Gemma-7B-Instruct模型生成的390篇论文,以及使用Gemini模型生成的3779篇文本。数据集中的每篇论文长度控制在768个单词以内,由模型根据提示生成,内容包含个人隐私信息(PII)。生成的文本经过格式化处理,符合The Learning Agency Lab - PII Data的标准要求,可用于隐私信息识别与相关研究。

数据用途概述:
该数据集适用于隐私信息检测、AI文本生成研究、数据格式化处理以及教育研究等领域。研究人员可以利用此数据集进行隐私信息识别模型的训练与评估,测试AI生成文本的质量与合规性;教育机构和研究机构可以利用这些数据进行教学案例分析,帮助学生理解AI生成文本的特性和潜在风险;此外,数据集还可用于评估隐私保护算法的效果,为数据安全研究提供有价值的参考。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 17.0 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。