PAN14文本对齐原创性测试语料库2014

数据集概述

本数据集为PAN14任务提供的测试语料库,包含文档对数据,其中部分文档可能存在经自动混淆处理的复用文本,用于研究文本原创性检测及对齐问题。

文件详解

  • 文件名称: pan14-text-alignment-test-corpus3-2014-05-14.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 压缩包内包含用于文本对齐原创性检测任务的测试语料库,具体文件结构需解压后查看

适用场景

  • 自然语言处理研究: 用于文本复用检测、抄袭识别算法的开发与测试
  • 信息检索研究: 探索文本对齐技术在文档相似度匹配中的应用
  • 学术诚信技术: 支持学术论文原创性检测工具的模型训练与验证
  • 文本处理算法评估: 作为标准测试集,评估自动混淆文本的识别能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 11.43 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。