LC_QuAD_2_1_Based_清洗版知识库问答实验数据集

数据集概述

本数据集是LC-QuAD 2.0的清洗版本,包含移除异常值和重复问题后的知识库问答数据,提供Wikidata和DBpedia 2018的虚拟SPARQL模板,以及论文使用的训练、开发、测试集,含带与不带复述问题的两个训练集,共四个JSON文件。

文件详解

  • 训练集(无复述问题)
  • 文件名称:training_without_paraphrased.json
  • 文件格式:JSON
  • 字段映射介绍:包含无复述问题的知识库问答训练数据,用于模型训练基础场景
  • 开发集
  • 文件名称:dev.json
  • 文件格式:JSON
  • 字段映射介绍:知识库问答模型开发过程中的验证数据,支持模型调优
  • 测试集
  • 文件名称:testing.json
  • 文件格式:JSON
  • 字段映射介绍:知识库问答模型性能评估的测试数据,用于验证模型泛化能力
  • 训练集(带复述问题)
  • 文件名称:training_with_paraphrased.json
  • 文件格式:JSON
  • 字段映射介绍:包含带复述问题的知识库问答训练数据,用于增强模型对不同表述问题的处理能力

数据来源

原始数据集LC-QuAD 2.0可通过http://lc-quad.sda.tech/获取

适用场景

  • 知识库问答系统训练: 用于复杂知识库问答模型的训练与优化,支持自然语言到SPARQL查询的转换任务
  • 复述问题处理研究: 对比带与不带复述问题的训练集效果,分析复述数据对模型性能的影响
  • 模型泛化能力测试: 利用测试集评估问答模型在未见过数据上的泛化表现
  • 语义模板适配研究: 基于提供的虚拟SPARQL模板,探索不同知识库(Wikidata、DBpedia)的适配方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 77.93 MiB
最后更新 2026年2月8日
创建于 2026年2月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。