医疗健康领域英阿句子对齐平行语料库PEACH

数据集概述

该数据集是医疗健康领域的英阿句子对齐平行语料库(PEACH),包含患者教育材料和患者信息手册的相关数据文件,以Excel格式存储,为医疗领域的自然语言处理研究提供多语言文本数据支持。

文件详解

  • 元数据文件(根目录下):
  • Patient-educational-materials-metadata.xlsx: Excel格式,可能包含患者教育材料的元数据信息
  • Patient-information-leaflets-metadata.xlsx: Excel格式,可能包含患者信息手册的元数据信息
  • 患者信息手册数据文件(位于Patient Information Leaflets/目录下):
  • 一系列编号命名的Excel文件(如39.xlsx、7.xlsx等): 共五百一十八个Excel格式文件,推测包含英阿句子对齐的医疗文本内容

数据来源

Al-Sabbagh, R.(2024)

适用场景

  • 医疗领域自然语言处理研究: 用于英阿机器翻译模型训练与评估
  • 多语言医疗文本分析: 支持医疗术语对齐、跨语言信息检索等研究
  • 医疗健康知识传播: 助力多语言患者教育材料的标准化与质量评估
  • 语料库语言学研究: 分析医疗领域英阿双语平行文本的语言特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 8.23 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。