Text2KGBench本体驱动文本生成知识图谱基准数据集

数据集概述

该数据集是用于评估语言模型在本体引导下从文本生成知识图谱能力的基准,包含Wikidata-TekGen(十个本体、一万三千四百七十四句)和DBpedia-WebNLG(十九个本体、四千八百六十句)两个子数据集,遵循本体约束提取文本事实。

文件详解

数据集以压缩包形式提供,内部结构及内容如下: - 压缩包文件: Text2KGBench.zip,包含源代码与数据目录 - src目录: 含生成、评估基准及基线模型的代码,细分为benchmark、evaluation、baseline子目录 - data目录: 含两个子数据集 - wikidata_tekgen: 含十个本体文件、训练/测试数据、人工验证句子ID、未见过的测试句子及对应真值、基线相关数据 - dbpedia_webnlg: 含十九个本体文件、训练/测试数据、真值及基线相关数据

适用场景

  • 自然语言处理研究: 评估语言模型从文本生成知识图谱的能力
  • 知识工程研究: 验证本体驱动的知识提取方法效果
  • 基准测试开发: 为知识图谱生成任务提供标准化测试数据集
  • 大语言模型优化: 针对知识提取任务优化模型性能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 5.61 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。