数据集 - 海数据

CT_EBM_SP_Based_西班牙循证医学临床试验标注语料数据

2026年1月27日 30 188 143

数据集概述本数据集为西班牙循证医学临床试验语料库（CT-EBM-SP），包含一千二百篇西班牙语临床试验相关文本（共二十九万二千一百七十三个词元），涵盖五百篇期刊摘要及七百篇临床试验公告，标注有解剖学、药理化学物质等四类医学实体，适用于医学自然语言处理研究。文件详解文件名称：CT-EBM-SP.zip 文件格式：ZIP...

ZIP

Multi_CAST_Based_多语言口语文本标注语料库数据_v2211

2026年1月21日 30 125 16

数据集概述本数据集为Multi-CAST项目中的Tulil语料库，属于多语言口语文本标注语料库，由Meng, Chenxi于2022年创建，收录于班贝格大学发布的Multi-CAST版本2211中，包含医疗相关的CT语义关键词，是研究多语言口语文本标注的基础资源。文件详解文件名称：Multi-CAST/mctulil-v2211.zip...

ZIP

Coh_Metrix_Based_研究同意书模板语言适当性计算语言学分析数据

2026年1月20日 30 182 53

数据集概述本数据集包含124个研究伦理委员会（REB）同意书模板的语言分析数据。覆盖澳大利亚/新西兰、加拿大、南非、英国及美国的医学类REB，通过Coh-Metrix软件分析模板语言可读性，评估关键语言学指标是否符合8年级及以下水平标准，并比较模板与REB自身可读性标准的差异。文件详解文件名称：Villafranca et al consent...

ZIP

LanguageStructure_Based_TuLeD语言结构数据集预发布版0_9

2026年1月14日 30 52 33

数据集概述本数据集为LanguageStructure/TuLeD的预发布版本（0.9版），核心内容围绕语言结构展开，包含一个压缩文件，未提供具体描述文档及内容预览，未区分训练/测试、数据/标签、原始/处理数据，适用于语言结构相关研究场景。文件详解文件名称：LanguageStructure/TuLeD-0.9.zip 文件格式：ZIP...

ZIP

MedCodER医学编码生成式AI助手数据集

2025年12月15日 30 110 97

数据集概述该数据集为MedCodER生成式AI医学编码助手项目提供支持，包含医疗记录文本、诊断编码及相关辅助文件，用于训练和验证AI模型的医学编码能力，为医疗编码自动化研究提供数据基础。文件详解数据文件（CSV格式）： text.csv：包含文档ID、医疗记录文本及ACI文档ID的测试集数据文件...

ZIP

GerMedIQ德语医疗问诊问答语料库

2025年12月12日 30 129 71

数据集概述该数据集包含四千五百二十四条德语医疗领域的模拟问答对，源自一百一十六个标准化问诊问题，由三十九名非患者参与者回答。问题提取自十二项基础问诊问卷及EORTC生活质量问卷等工具，同时包含十八个大中小型语言模型生成的零样本合成回答。文件详解根目录文件：Jhofenbitzer/GerMedIQ-...

ZIP

SSMU_RuMedPrimeData_Based_圣彼得堡医科大学门诊就诊数据完整分析

2025年12月6日 30 16 5

数据集概述该数据集包含俄罗斯圣彼得堡国立医科大学（SSMU）医院门诊就诊的匿名化数据，涵盖七千六百二十五条就诊记录，每条记录包含患者标识、就诊标识、就诊时间、症状、病史、ICD-10疾病编码等字段，数据以TSV格式存储并压缩为ZIP文件。文件详解该数据集包含一个压缩文件，具体说明如下： - 文件名称: RuMedPrimeData.zip -...

ZIP

找到7个数据集

注册成功！