数据集概述
本数据集包含基于RotatE模型训练的CoV知识图谱实体与关系嵌入结果,涵盖训练、验证和测试阶段的三元组数据、实体及关系映射、嵌入向量文件、训练日志和配置文件,共10个文件,用于CoV领域知识图谱的表示学习与分析。
文件详解
- 核心数据文件
- 文件名称:kg_train.tsv、kg_valid.tsv、kg_test.tsv
- 文件格式:TSV
- 字段映射介绍:存储知识图谱的三元组数据,包含头实体、关系、尾实体(如CHEBI:16330 A+ NCBI:2475)
- 映射文件
- 文件名称:entities.tsv、relations.tsv
- 文件格式:TSV
- 字段映射介绍:entities.tsv记录实体及其映射;relations.tsv记录关系类型(如A+、A-、MI:0194等)
- 嵌入向量文件
- 文件名称:FINAL_CoV_KG_RotatE_entity.npy、FINAL_CoV_KG_RotatE_relation.npy
- 文件格式:NPY
- 字段映射介绍:存储经RotatE模型训练得到的实体与关系嵌入向量
- 训练日志与配置
- 文件名称:train_loss_logs.txt
- 文件格式:TXT
- 字段映射介绍:记录训练过程中的三元组读取数量(训练集7430547条、验证集2123017条、测试集1061506条)
- 文件名称:config.json
- 文件格式:JSON
- 字段映射介绍:包含数据集、模型、嵌入维度、训练步数、批次大小等配置参数
- 分析文件
- 文件名称:Analysis.ipynb
- 文件格式:IPYNB
- 字段映射介绍:用于嵌入结果分析的Jupyter Notebook文件
适用场景
- 知识图谱表示学习研究: 用于分析RotatE模型在CoV领域知识图谱中的实体与关系嵌入效果
- CoV领域知识挖掘: 基于嵌入向量挖掘实体间潜在关联,支持药物研发、疾病机制研究等场景
- 知识图谱补全: 利用嵌入结果预测CoV知识图谱中缺失的实体关系三元组
- 模型训练参数优化: 通过config.json和train_loss_logs.txt分析训练参数对嵌入效果的影响
- 知识图谱可视化: 基于嵌入向量实现CoV知识图谱的低维可视化展示