PAN13_Text_Alignment_原创性检测_文本复用识别训练语料

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

PAN13_Text_Alignment_原创性检测_文本复用识别训练语料

数据集概述

本数据集为PAN13项目的文本对齐原创性检测训练语料，包含成对文档数据，其中一方可能复用另一方文本，且复用文本经自动混淆处理以隐藏复用痕迹。数据集用于支持自然语言处理领域的文本原创性检测研究，仅含一个压缩文件。

文件详解

文件名称：pan13-text-alignment-test-and-training.zip
文件格式：ZIP
字段映射介绍：压缩包内包含训练语料数据，核心内容为存在文本复用关系的文档对，复用文本带有自动混淆处理特征；未提供具体内部文件及字段的详细映射信息。

适用场景

文本原创性检测模型训练：用于训练识别文本复用及自动混淆痕迹的算法模型。
自然语言处理文本对齐研究：分析成对文档间的文本复用关系与对齐模式。
文本混淆技术效果评估：探究不同自动混淆方法对文本复用检测难度的影响。
学术不端检测技术研发：为学术论文、内容创作等场景的原创性检测工具提供训练数据支持。

数据与资源

3715980.zipZIP
27.39 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	27.39 MiB
最后更新	2026年1月21日
创建于	2026年1月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？