EHRI_MASI_Test_Dataset_大屠杀档案多语言主题标引测试数据

数据集概述

本数据集包含源自大屠杀相关档案材料描述的文本,每条文本关联EHRI Terms受控词表中的一个或多个主题术语,用于支持多语言自动主题标引的对比研究,可复现论文中的实验结果。

文件详解

  • 文件名称:ehri-masi-dataset-main.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含与大屠杀档案相关的文本数据,每条文本关联EHRI Terms受控词表中的主题术语,具体字段需解压后查看原始文件结构。

数据来源

论文“Multilingual Automated Subject Indexing: a comparative study of LLMs vs alternative approaches in the context of the EHRI project”

适用场景

  • 多语言自动主题标引研究: 对比LLM与其他方法在大屠杀档案主题标引任务中的性能。
  • 档案资源组织优化: 探索受控词表在多语言档案描述中的应用效果。
  • 数字人文研究: 支持大屠杀相关档案的语义化组织与检索研究。
  • 自然语言处理模型评估: 为多语言主题标引模型提供标准测试数据集。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 33.38 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。