PAN13_Text_Alignment_原创性检测_文本复用识别训练语料

数据集概述

本数据集为PAN13项目的文本对齐原创性检测训练语料,包含成对文档数据,其中一方可能复用另一方文本,且复用文本经自动混淆处理以隐藏复用痕迹。数据集用于支持自然语言处理领域的文本原创性检测研究,仅含一个压缩文件。

文件详解

  • 文件名称:pan13-text-alignment-test-and-training.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含训练语料数据,核心内容为存在文本复用关系的文档对,复用文本带有自动混淆处理特征;未提供具体内部文件及字段的详细映射信息。

适用场景

  • 文本原创性检测模型训练:用于训练识别文本复用及自动混淆痕迹的算法模型。
  • 自然语言处理文本对齐研究:分析成对文档间的文本复用关系与对齐模式。
  • 文本混淆技术效果评估:探究不同自动混淆方法对文本复用检测难度的影响。
  • 学术不端检测技术研发:为学术论文、内容创作等场景的原创性检测工具提供训练数据支持。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 27.39 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。