数字人文语言鸿沟研究补充数据集

数据集概述

本数据集是论文《Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri》的补充数据,包含用于评估SKOS叙词表自动翻译工具WOKIE的所有翻译叙词表,以及本体匹配结果,覆盖考古学、文化时期等五个主题领域,为数字人文领域的跨语言叙词表研究提供支持。

文件详解

该数据集由主题叙词表文件夹和本体匹配结果文件夹组成,具体说明如下: - 主题叙词表文件夹(共5个): - 考古学(Archaeology):包含该主题的原始及处理后的SKOS叙词表文件 - 文化时期(Cultural time periods):包含该主题的原始及处理后的SKOS叙词表文件 - 数字人文与计算机科学交叉(Interlink of Digital Humanities, computer science and IT):包含该主题的原始及处理后的SKOS叙词表文件 - 历史图书与图书馆研究(Historic book and library studies):包含该主题的原始及处理后的SKOS叙词表文件 - 拉丁语(Latin):包含该主题的原始及处理后的SKOS叙词表文件 - 文件命名规则(om文件夹除外): - .rdf:原始未修改叙词表(如defc.rdf) - 后缀说明: - _reduced:移除非目标主题术语 - _converted:从其他序列化格式转换为RDF/XML - _corrected_skosified:通过skosify库修正无效SKOS格式 - _node:移除德语(无德语) - _nola:移除拉丁语(无拉丁语) - 测试用例文件夹:如defc_node(移除德语的DEFC叙词表),内包含翻译后的叙词表文件(.rdf)、评估结果文件(.csv、*.log) - om文件夹(本体匹配结果): - testCasePerformanceCube.xlsx:本体匹配评估的主要结果文件

适用场景

  • 数字人文研究:分析LLM辅助翻译对SKOS叙词表跨语言应用的影响
  • 语义网技术评估:评估WOKIE工具在叙词表自动翻译任务中的性能
  • 本体匹配研究:基于om文件夹结果分析不同叙词表的匹配效果
  • 叙词表标准化实践:研究SKOS格式修正及跨语言处理的最佳方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 33.57 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。