数据集概述
本数据集包含11个文件,用于评估X-approach本体填充方法。数据分为输入、黄金标准和输出三类:输入含法语房产领域知识图谱及78条房产广告语料库;黄金标准为语料库填充后的标准知识图谱;输出含基于两种词形还原工具(Aker、TreeTagger)和四种方法(X-approach等)生成的8个知识图谱文件,可用于本体填充方法的性能对比分析。
文件详解
- 输入文件
- 文件名称:biens_immobiliers.owl
- 文件格式:OWL
- 字段映射介绍:法语房产销售领域知识图谱,描述房产领域本体结构
- 文件名称:corpus_78_annonces.xml
- 文件格式:XML
- 字段映射介绍:包含78条法语房产销售分类广告的语料库
- 黄金标准文件
- 文件名称:gold_standard.owl
- 文件格式:OWL
- 字段映射介绍:使用语料库广告填充后的本体标准知识图谱,作为评估基准
- 输出文件
- 文件名称:output_Aker_X-approach.owl、output_Aker_text_based_analysis.owl、output_Aker_baseline_and_next.owl、output_Aker_baseline.owl、output_TT_X-approach.owl、output_TT_baseline_and_next.owl、output_TT_baseline.owl等(共8个)
- 文件格式:OWL
- 字段映射介绍:基于Aker和TreeTagger两种词形还原工具,结合X-approach、Text-based analysis、Baseline+next、Baseline四种方法生成的本体填充输出结果
适用场景
- 本体填充方法评估: 对比X-approach与其他三种方法在房产领域本体填充任务中的性能
- 词形还原工具效果分析: 分析Aker和TreeTagger对本体填充结果的影响
- 自然语言处理应用: 基于法语房产广告语料库开展领域知识图谱构建研究
- 语义网技术验证: 验证不同方法在本体实例化任务中的准确性与完整性