-
PAN14文本对齐原创性测试语料库2014
2025年12月9日 30 140 94
数据集概述 本数据集为PAN14任务提供的测试语料库,包含文档对数据,其中部分文档可能存在经自动混淆处理的复用文本,用于研究文本原创性检测及对齐问题。 文件详解 文件名称: pan14-text-alignment-test-corpus3-2014-05-14.zip 文件格式: ZIP压缩包 内容说明:...
-
大规模数据挖掘文档相似度分析数据集MassiveDataMiningDocumentSimilarityAnalysisDataset-massivedatamining
2025年5月1日 30 95 67
大规模数据挖掘文档相似度分析数据集MassiveDataMiningDocumentSimilarityAnalysisDataset-massivedatamining 数据来源:互联网公开数据 标签:数据挖掘, 文档分析, 相似度计算, LSH, 文本处理, 机器学习, 向量化, 语料库 数据概述:...



