数据集

文本生成模型创作文章真伪辨别数据集TextGenerationModelArticleAuthenticityDetection-scarlet390625

数据来源：互联网公开数据

标签：文本生成, 机器生成文本, 真实性检测, 自然语言处理, 文本分类, 深度学习, GPT模型, 伪原创

数据概述：该数据集包含来自不同文本生成模型（如GPT-J-6B和GPT-Neo-2-7B）生成的文章，以及人工撰写的文章，用于训练和评估文本真实性检测模型。主要特征如下：时间跨度：数据未标明具体时间，视作静态文本语料数据集使用。地理范围：数据内容主题广泛，不限定特定地理区域。数据维度：数据集包含“text”（文章文本）、“label”（标签，0代表人工撰写，1代表机器生成）、“prompt_name”（生成文本所用的提示词）、“source”（文本来源）、“RDizzl3_seven”（一个可能与文本质量或来源相关的布尔值）、“crit”（一个可能代表文本评价指标的数值）等字段。数据格式：CSV格式，包含DAIGT_with_gpt-j-6b.csv和DAIGT_with_gpt-neo-2-7b.csv两个文件，便于文本分析和机器学习模型训练。数据已进行初步处理，包括文本提取和标签标注。该数据集适合用于研究和开发识别机器生成文本的算法，以及评估不同文本生成模型的创作特点。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘、机器学习等领域的学术研究，如机器生成文本检测、伪原创识别、文本风格分析等。行业应用：为内容审核、版权保护、新闻真实性验证等行业提供数据支持，特别是在自动鉴别虚假信息、提升内容质量方面。决策支持：支持企业和机构的内容管理策略制定，帮助优化内容创作流程，提升内容质量。教育和培训：作为自然语言处理、机器学习等课程的实训数据，帮助学生和研究人员深入理解文本生成技术，并构建文本分类模型。此数据集特别适合用于探索机器生成文本的特征，以及构建能够有效区分机器生成文本和人工撰写文本的模型，从而提升内容真实性和可靠性。

数据与资源

versions_20250317014502.zipZIP
42.91 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	42.91 MiB
最后更新	2025年5月29日
创建于	2025年5月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。