GPT与人类撰写摘要数据集
数据来源:互联网公开数据
标签:GPT,人类撰写,研究摘要,文本分析,作者识别,自然语言处理,学术研究
数据概述:
本数据集包含一组独特的研究摘要,涵盖了人类撰写和AI(GPT)生成的版本。每个条目包括研究论文的标题、摘要文本,并标注了摘要是由人类撰写还是由GPT生成。数据集用于研究论文《检测AI作者身份:分析描述特征以进行AI检测》。
数据用途概述:
该数据集适用于文本分析、AI生成内容识别、学术研究等多个场景。研究人员可以利用此数据集来分析和比较人类撰写与AI生成摘要的差异;学术机构可借助数据集进行自然语言处理研究;教育者可以使用数据集进行教学,帮助学习者理解文本生成技术的发展。此外,数据集还适用于评估现有的AI检测方法的有效性。
数据结构说明:
数据集结构如下:
- title:研究论文的标题,对于同一研究论文,人类撰写和GPT生成的摘要标题保持一致。
- abstract:摘要的主体内容。每个标题对应两段摘要文本,一段由人类撰写,另一段由GPT生成。
- ai_generated(布尔值):True 表示摘要由GPT生成,False 表示摘要由人类撰写。
- is_ai_generated(二进制值):1 表示AI生成的摘要,0 表示人类撰写的摘要。
人类撰写的摘要数据来源于:https://www.kaggle.com/datasets/Cornell-University/arxiv
许可协议:该数据集采用MIT许可协议(https://opensource.org/license/mit/),允许任何人在获得软件及其相关文档文件的副本后,不受限制地使用、复制、修改、合并、发布、分发、再许可和/或销售软件的副本。