GitTables基准测试_列类型检测数据集

数据集概述

本数据集是GitTables语料库的一个子集,专为列类型检测方法的基准测试设计。它基于DBpedia和Schema.org本体的语义类型,用于评估系统对表格列进行语义标注的能力,曾用于SemTab 2021挑战赛的CTA任务。数据集包含表格样本、目标列信息、标注真值及标签映射文件,支持列类型检测模型的训练与评估。

文件详解

该数据集包含7个文件,具体说明如下: - 表格样本文件: - tables.zip:压缩文件,包含1101个GitTables表格样本。文件名对应表格ID,列名替换为“col_0”“col_1”等,与目标文件和标签文件中的语义类型匹配。 - 目标列文件(按本体分类): - dbpedia_targets.csv:CSV格式,记录DBpedia本体下每个表格的目标列,字段包括“table_id”(忽略“_DBpedia”后缀)和“target_column”(需标注的列)。 - schema_targets.csv:CSV格式,记录Schema.org本体下每个表格的目标列,字段与DBpedia版本一致。 - 标注真值文件(按本体分类): - dbpedia_gt.csv:CSV格式,DBpedia本体下的列标注真值,字段包括“table_id”“target_column”“annotation_id”(本体类型ID)和“annotation_label”(本体类型标签)。 - schema_gt.csv:CSV格式,Schema.org本体下的列标注真值,字段与DBpedia版本一致。 - 标签映射文件(按本体分类): - dbpedia_labels.csv:CSV格式,DBpedia本体的唯一标签列表,字段包括“annotation_id”和“annotation_label”。 - schema_labels.csv:CSV格式,Schema.org本体的唯一标签列表,字段与DBpedia版本一致。

适用场景

  • 列类型检测模型评估:用于测试和比较不同算法在表格列语义类型标注任务上的性能。
  • 语义Web研究:支持基于DBpedia和Schema.org本体的表格数据语义化研究。
  • 数据集成应用:为表格数据与知识图谱的自动关联提供基准测试数据。
  • 信息抽取研究:用于探索从非结构化表格中提取结构化语义信息的方法。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 3.46 MiB
最后更新 2025年12月20日
创建于 2025年12月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。