欧洲大学跨语言文本复用检测结果数据集

数据集概述

该数据集包含欧洲大学跨语言文本复用检测实验结果,基于学术论文《Cross-language plagiarism detection: a case study of European languages academic works》构建,含OATD许可文档、开源来源及检测报告,文档与来源名称以URL的MD5哈希表示。

文件详解

数据集包含3个压缩文件,存储于t726dmtx24-2/目录下: - t726dmtx24-2/reports.zip:ZIP格式,含JSON检测报告,记录文档URL、复用案例的偏移量、长度及首尾标记词 - t726dmtx24-2/analyzed_documents.zip:ZIP格式,含OATD许可的分析文档,名称为文档URL的MD5哈希 - t726dmtx24-2/sources.zip:ZIP格式,含开源来源文档,名称为来源URL的MD5哈希

适用场景

  • 跨语言文本复用研究:验证不同欧洲语言学术文本的复用检测算法效果
  • 学术诚信分析:探索多语言环境下学术论文的文本复用模式与特征
  • 自然语言处理应用:为跨语言抄袭检测模型的训练或评估提供实证数据
  • 学术资源管理:分析开放获取学术文档的来源分布及复用关系
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 64.34 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。