数据集概述
本数据集围绕学术论文中重要引用分类的窗口大小优化展开,通过在SciCite和ACL-ARC数据集上测试不同窗口大小,评估机器学习(SVM、朴素贝叶斯等)和深度学习(CNN、LSTM等)模型的性能,最终确定最优窗口大小为10,旨在提升引用重要性检测的准确性与效率。
文件详解
- 文件名称:Dataset D1 Cohen.xlsx
- 文件格式:XLSX
- 字段映射介绍:未提供具体字段信息,推测为预处理后的SciCite或ACL-ARC数据集相关数据
- 文件名称:D2.xlsx
- 文件格式:XLSX
- 字段映射介绍:未提供具体字段信息,推测为预处理后的SciCite或ACL-ARC数据集相关数据
- 文件名称:classical-machine-learning-window (2).ipynb
- 文件格式:IPYNB
- 字段映射介绍:包含SVM、朴素贝叶斯、决策树等经典机器学习模型的训练与评估代码,用于测试不同窗口大小下的模型性能
- 文件名称:Windowbased deep learning.ipynb
- 文件格式:IPYNB
- 字段映射介绍:包含CNN、LSTM、GRU等深度学习模型的训练与评估代码,用于测试不同窗口大小下的模型性能
适用场景
- 学术引用分类模型优化: 用于测试不同窗口大小对引用重要性分类模型性能的影响,优化模型参数
- 机器学习与深度学习模型对比: 对比SVM、CNN等不同类型模型在引用分类任务中的表现
- 学术引用分析研究: 辅助研究引用的上下文重要性,提升文献综述工具的准确性
- 学术影响力评估: 为研究成果的影响力评估提供技术支持,优化参考文献优先级排序系统