数据集概述
本数据集用于在开放研究知识图谱(ORKG)中实现基于内容的推荐系统,输入研究论文标题和摘要,推荐语义相关的现有模板。包含一个通用数据集、两种方法的训练集、监督方法验证集及两种方法的测试集,支持自然语言推理(NLI)和无监督推荐模型训练与评估。
文件详解
- dataset.json(JSON格式)
- 包含templates列表和neutral papers列表
- template对象字段:id、label、research_fields(含id和label)、properties、papers(含id、label、DOI、research_field、abstract)
- neutral paper对象字段:id、label、DOI、research_field、abstract
- bert_training_set.json(JSON格式)
- 包含entailments、contradictions、neutrals列表
- 每个列表对象字段:instance_id(template_id+paper_id)、template_id、paper_id、premise(论文标题)、hypothesis(论文摘要)、sequence(premise+hypothesis拼接)、target(类别)
- bert_validation_set.json(JSON格式)
- 结构与bert_training_set.json一致,用于监督方法验证
- es_training_set.json(JSON格式)
- 结构与bert_training_set.json一致,用于无监督ElasticSearch方法训练
- test_set.json(JSON格式)
- 结构与bert_training_set.json一致,用于两种方法的测试
适用场景
- 开放研究知识图谱模板推荐系统开发:基于论文标题和摘要,实现语义相关模板的智能推荐
- 自然语言推理模型训练:使用SciBERT嵌入的NLI方法训练与评估
- 无监督推荐方法研究:基于ElasticSearch的无监督模板推荐模型开发
- 学术知识图谱语义匹配研究:分析论文与模板之间的语义关联模式
- 研究生论文研究支持:为硕士论文等学术研究提供模板推荐的数据集基础