数据集

GitTables基准测试_列类型检测数据集

数据集概述

本数据集是GitTables语料库的一个子集，专为列类型检测方法的基准测试设计。它基于DBpedia和Schema.org本体的语义类型，用于评估系统对表格列进行语义标注的能力，曾用于SemTab 2021挑战赛的CTA任务。数据集包含表格样本、目标列信息、标注真值及标签映射文件，支持列类型检测模型的训练与评估。

文件详解

该数据集包含7个文件，具体说明如下： - 表格样本文件： - tables.zip：压缩文件，包含1101个GitTables表格样本。文件名对应表格ID，列名替换为“col_0”“col_1”等，与目标文件和标签文件中的语义类型匹配。 - 目标列文件（按本体分类）： - dbpedia_targets.csv：CSV格式，记录DBpedia本体下每个表格的目标列，字段包括“table_id”（忽略“_DBpedia”后缀）和“target_column”（需标注的列）。 - schema_targets.csv：CSV格式，记录Schema.org本体下每个表格的目标列，字段与DBpedia版本一致。 - 标注真值文件（按本体分类）： - dbpedia_gt.csv：CSV格式，DBpedia本体下的列标注真值，字段包括“table_id”“target_column”“annotation_id”（本体类型ID）和“annotation_label”（本体类型标签）。 - schema_gt.csv：CSV格式，Schema.org本体下的列标注真值，字段与DBpedia版本一致。 - 标签映射文件（按本体分类）： - dbpedia_labels.csv：CSV格式，DBpedia本体的唯一标签列表，字段包括“annotation_id”和“annotation_label”。 - schema_labels.csv：CSV格式，Schema.org本体的唯一标签列表，字段与DBpedia版本一致。

适用场景

列类型检测模型评估：用于测试和比较不同算法在表格列语义类型标注任务上的性能。
语义Web研究：支持基于DBpedia和Schema.org本体的表格数据语义化研究。
数据集成应用：为表格数据与知识图谱的自动关联提供基准测试数据。
信息抽取研究：用于探索从非结构化表格中提取结构化语义信息的方法。

数据与资源

5706316.zipZIP
3.46 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	3.46 MiB
最后更新	2025年12月20日
创建于	2025年12月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。