ORKG_Based_开放研究知识图谱_模板推荐_内容推荐数据集

数据集概述

本数据集用于在开放研究知识图谱(ORKG)中实现基于内容的推荐系统,输入研究论文标题和摘要,推荐语义相关的现有模板。包含一个通用数据集、两种方法的训练集、监督方法验证集及两种方法的测试集,支持自然语言推理(NLI)和无监督推荐模型训练与评估。

文件详解

  • dataset.json(JSON格式)
  • 包含templates列表和neutral papers列表
  • template对象字段:id、label、research_fields(含id和label)、properties、papers(含id、label、DOI、research_field、abstract)
  • neutral paper对象字段:id、label、DOI、research_field、abstract
  • bert_training_set.json(JSON格式)
  • 包含entailments、contradictions、neutrals列表
  • 每个列表对象字段:instance_id(template_id+paper_id)、template_id、paper_id、premise(论文标题)、hypothesis(论文摘要)、sequence(premise+hypothesis拼接)、target(类别)
  • bert_validation_set.json(JSON格式)
  • 结构与bert_training_set.json一致,用于监督方法验证
  • es_training_set.json(JSON格式)
  • 结构与bert_training_set.json一致,用于无监督ElasticSearch方法训练
  • test_set.json(JSON格式)
  • 结构与bert_training_set.json一致,用于两种方法的测试

适用场景

  • 开放研究知识图谱模板推荐系统开发:基于论文标题和摘要,实现语义相关模板的智能推荐
  • 自然语言推理模型训练:使用SciBERT嵌入的NLI方法训练与评估
  • 无监督推荐方法研究:基于ElasticSearch的无监督模板推荐模型开发
  • 学术知识图谱语义匹配研究:分析论文与模板之间的语义关联模式
  • 研究生论文研究支持:为硕士论文等学术研究提供模板推荐的数据集基础
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 8.98 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。