数据集概述
本数据集是GitTables语料库的子集,专为2022年SemTab竞赛第三轮的列类型检测方法基准测试而整理。包含表格数据文件及对应DBpedia、Schema.org的目标列标注与真值文件,共七个文件,用于评估表格列语义类型检测模型的性能。
文件详解
- 文件名称:GitTables_SemTab_2022_dataset.zip
- 文件格式:ZIP
- 字段映射介绍:包含SemTab 2022第三轮使用的GitTables表格数据,文件名对应表格ID,列名替换为"col_0"“col_1”等,与主网站提供的目标及标签匹配。
- 文件名称:dbpedia_property_gt.csv
- 文件格式:CSV
- 字段映射介绍:目标列的DBpedia属性真值标签数据。
- 文件名称:dbpedia_property_targets.csv
- 文件格式:CSV
- 字段映射介绍:包含table_id(表格ID)、target_column(目标列索引)字段,标注DBpedia属性的目标列。
- 文件名称:schema_property_gt.csv
- 文件格式:CSV
- 字段映射介绍:目标列的Schema.org属性真值标签数据。
- 文件名称:schema_property_targets.csv
- 文件格式:CSV
- 字段映射介绍:Schema.org属性的目标列标注数据。
- 文件名称:schema_class_gt.csv
- 文件格式:CSV
- 字段映射介绍:目标列的Schema.org类真值标签数据,包含表格ID、列索引、Schema.org类标签(如schema:State)。
- 文件名称:schema_class_targets.csv
- 文件格式:CSV
- 字段映射介绍:Schema.org类的目标列标注数据。
数据来源
GitTables语料库(https://gittables.github.io)
适用场景
- 表格列类型检测模型评估: 作为SemTab 2022基准数据集,用于测试和比较不同列语义类型检测算法的准确性。
- 语义标注方法研究: 分析DBpedia与Schema.org两种知识图谱下的列标注任务差异,优化标注策略。
- 表格数据理解研究: 探索表格列命名匿名化场景下的语义类型推理方法。
- 知识图谱对齐应用: 研究表格数据与DBpedia、Schema.org知识图谱的属性及类对齐技术。