SPARQL查询性能预测数据集

SPARQL查询性能预测数据集 数据来源:互联网公开数据
标签:SPARQL查询,性能预测,执行时间,机器学习模型,查询优化,RDF数据库,数据挖掘,特征工程

数据概述:
本数据集旨在预测SPARQL查询的执行时间,适用于相关研究和应用。数据集包含训练集、验证集和测试集,每个CSV文件中的列由特殊字符分隔。数据集涵盖了多种特征,包括查询操作符(代数特征)、查询与数据集质心之间的相似性(图模式特征),以及每个查询的执行计划树(从Jena提取)。数据集基于2018年Wikidata日志中的查询,这些查询在本地环境中运行于2019年Wikidata转储数据加载的Jena TDB2 RDF数据库上。该数据集是某硕士论文的研究成果,旨在探索SPARQL查询性能预测的方法。

数据用途概述:
该数据集适用于多种场景,包括但不限于:
1. 训练和评估SPARQL查询执行时间预测模型,如NuSVR、前馈神经网络等。
2. 研究SPARQL查询的执行计划树结构对性能预测的影响,适用于训练TCNN、Tree-LSTM等模型。
3. 优化SPARQL查询的执行效率,帮助开发者和研究人员改进查询设计和优化策略。
4. 支持基于SPARQL查询特征的机器学习研究,探索不同特征组合对预测效果的影响。
5. 为RDF数据库和SPARQL查询处理系统的性能分析提供数据支持,助力系统优化和改进。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.13 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。