GitTables_Based_SemTab_2022列类型检测基准数据集

数据集概述

本数据集是GitTables语料库的子集,专为2022年SemTab竞赛第三轮的列类型检测方法基准测试而整理。包含表格数据文件及对应DBpedia、Schema.org的目标列标注与真值文件,共七个文件,用于评估表格列语义类型检测模型的性能。

文件详解

  • 文件名称:GitTables_SemTab_2022_dataset.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含SemTab 2022第三轮使用的GitTables表格数据,文件名对应表格ID,列名替换为"col_0"“col_1”等,与主网站提供的目标及标签匹配。
  • 文件名称:dbpedia_property_gt.csv
  • 文件格式:CSV
  • 字段映射介绍:目标列的DBpedia属性真值标签数据。
  • 文件名称:dbpedia_property_targets.csv
  • 文件格式:CSV
  • 字段映射介绍:包含table_id(表格ID)、target_column(目标列索引)字段,标注DBpedia属性的目标列。
  • 文件名称:schema_property_gt.csv
  • 文件格式:CSV
  • 字段映射介绍:目标列的Schema.org属性真值标签数据。
  • 文件名称:schema_property_targets.csv
  • 文件格式:CSV
  • 字段映射介绍:Schema.org属性的目标列标注数据。
  • 文件名称:schema_class_gt.csv
  • 文件格式:CSV
  • 字段映射介绍:目标列的Schema.org类真值标签数据,包含表格ID、列索引、Schema.org类标签(如schema:State)。
  • 文件名称:schema_class_targets.csv
  • 文件格式:CSV
  • 字段映射介绍:Schema.org类的目标列标注数据。

数据来源

GitTables语料库(https://gittables.github.io

适用场景

  • 表格列类型检测模型评估: 作为SemTab 2022基准数据集,用于测试和比较不同列语义类型检测算法的准确性。
  • 语义标注方法研究: 分析DBpedia与Schema.org两种知识图谱下的列标注任务差异,优化标注策略。
  • 表格数据理解研究: 探索表格列命名匿名化场景下的语义类型推理方法。
  • 知识图谱对齐应用: 研究表格数据与DBpedia、Schema.org知识图谱的属性及类对齐技术。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.13 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。