数据集概述
本数据集是论文《Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri》的补充数据,包含用于评估SKOS叙词表自动翻译工具WOKIE的所有翻译叙词表,以及本体匹配结果,覆盖考古学、文化时期等五个主题领域,为数字人文领域的跨语言叙词表研究提供支持。
文件详解
该数据集由主题叙词表文件夹和本体匹配结果文件夹组成,具体说明如下:
- 主题叙词表文件夹(共5个):
- 考古学(Archaeology):包含该主题的原始及处理后的SKOS叙词表文件
- 文化时期(Cultural time periods):包含该主题的原始及处理后的SKOS叙词表文件
- 数字人文与计算机科学交叉(Interlink of Digital Humanities, computer science and IT):包含该主题的原始及处理后的SKOS叙词表文件
- 历史图书与图书馆研究(Historic book and library studies):包含该主题的原始及处理后的SKOS叙词表文件
- 拉丁语(Latin):包含该主题的原始及处理后的SKOS叙词表文件
- 文件命名规则(om文件夹除外):
- .rdf:原始未修改叙词表(如defc.rdf)
- 后缀说明:
- _reduced:移除非目标主题术语
- _converted:从其他序列化格式转换为RDF/XML
- _corrected_skosified:通过skosify库修正无效SKOS格式
- _node:移除德语(无德语)
- _nola:移除拉丁语(无拉丁语)
- 测试用例文件夹:如defc_node(移除德语的DEFC叙词表),内包含翻译后的叙词表文件(.rdf)、评估结果文件(.csv、*.log)
- om文件夹(本体匹配结果):
- testCasePerformanceCube.xlsx:本体匹配评估的主要结果文件
适用场景
- 数字人文研究:分析LLM辅助翻译对SKOS叙词表跨语言应用的影响
- 语义网技术评估:评估WOKIE工具在叙词表自动翻译任务中的性能
- 本体匹配研究:基于om文件夹结果分析不同叙词表的匹配效果
- 叙词表标准化实践:研究SKOS格式修正及跨语言处理的最佳方法