学术论文查重结果评估数据集AcademicPaperPlagiarismDetectionResultsEvaluation-azharabdulaziz

学术论文查重结果评估数据集AcademicPaperPlagiarismDetectionResultsEvaluation-azharabdulaziz

数据来源:互联网公开数据

标签:学术论文, 查重, 抄袭检测, 评估, 性能指标, TPR, FPR, F1值, 数据分析

数据概述: 该数据集包含来自论文查重系统的评估结果,记录了对学术论文进行抄袭检测后的各项性能指标。主要特征如下: 时间跨度:数据未标明具体时间,视作静态评估结果。 地理范围:数据未明确标注地理范围,推测为学术论文查重场景下的评估结果。 数据维度:数据集包括以下关键指标: TP (True Positive): 真正例,指正确识别出的抄袭论文数量。 FP (False Positive): 假正例,指错误地将非抄袭论文判定为抄袭的论文数量。 TN (True Negative): 真负例,指正确识别出的非抄袭论文数量。 FN (False Negative): 假负例,指错误地将抄袭论文判定为非抄袭的论文数量。 TPR (True Positive Rate): 真正例率,又称灵敏度或召回率。 FPR (False Positive Rate): 假正例率。 TNR (True Negative Rate): 真负例率,又称特异度。 FNR (False Negative Rate): 假负例率。 est_p: 估计的精确度。 est_r: 估计的召回率。 est_f1: 估计的F1值,综合考量精确度和召回率。 Gran: 粒度,可能与检测的细致程度有关。 est_plagDetect: 抄袭检测的估计值。 数据格式:CSV格式,文件名为 AllResults11000.csv,便于数据分析和处理。 数据来源于论文查重系统的评估结果,已进行结构化处理,便于分析和应用。 该数据集适合用于评估论文查重系统的性能,并进行相关研究。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于学术论文查重算法的性能评估与比较研究,以及在不同设置下对查重结果的分析。 行业应用:为学术出版、教育机构等提供数据支持,用于评估和改进其使用的查重系统,保障学术诚信。 决策支持:支持学术机构和出版机构在选择和使用查重系统时进行决策,并优化查重策略。 教育和培训:作为学术写作规范、学术道德相关课程的辅助材料,帮助学生和研究人员理解查重结果的含义,以及如何避免学术不端行为。 此数据集特别适合用于评估查重系统的检测准确性,并分析不同参数设置对检测结果的影响,从而提升查重系统的效率和可靠性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.12 MiB
最后更新 2025年5月1日
创建于 2025年5月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。