LC-QuAD2-0问答数据集-thedevastator

LC-QuAD2-0问答数据集-thedevastator 数据来源:互联网公开数据 标签:问答系统,SPARQL查询,Wikidata,DBpedia,自然语言处理,机器学习,教育,科研

数据概述: LC-QuAD 2.0 是一个突破性的数据集,旨在推动智能查询技术的发展。它包含30,000个问题与其对应的SPARQL查询对,为希望利用智能查询技术解锁知识的个人提供了巨大的机会。这些问题与最新版本的Wikidata和DBpedia相关联,为技术熟练的个人提供了访问广泛信息库的途径。数据集包括自然语言问题及其SPARQL查询解决方案,共计30,000个答案,适用于各种查询需求。

数据用途概述: 该数据集适用于构建问答系统、创建新的知识图谱和搜索引擎等多种场景。研究人员可以利用此数据集训练和测试智能系统,将其自然语言问题转换为SPARQL查询,以检索所需信息。此外,该数据集还适用于语义学者搜索引擎、学术数字图书馆、知识图谱构建等领域的研究和开发,能够提供更准确的搜索结果和个性化推荐。

数据集结构: LC-QuAD 2.0 数据集分为训练集和测试集两个文件,每对包含以下字段:

  • NNQT_question:自然语言问题(字符串)
  • subgraph:问题的子图信息(图)
  • sparql_dbpedia18:针对DBpedia 18的SPARQL查询(查询)
  • template:生成SPARQL查询的模板(字符串)
  • paraphrased_question:问题的同义版本(字符串)

使用方法: 1. 理解数据结构:熟悉数据集的文件结构和字段描述。 2. 学习SPARQL:了解SPARQL的基本概念和用法,以便更好地处理数据。 3. 数据探索:详细查看每对数据,理解自然语言问题与其对应的SPARQL查询之间的关系。 4. 应用数据:利用数据集构建自己的问答系统或知识图谱,或进行相关研究。

致谢: 如果您在研究中使用了该数据集,请引用原始作者及Huggingface Hub。

许可: 许可:CC0 1.0 公共领域贡献 - 无版权 您可以自由地复制、修改、分发和表演此作品,即使是出于商业目的,无需获得许可。参考其他信息。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.78 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。