找到3个数据集

标签: 语料库数据

过滤结果
  • CalDraCor_Based_戏剧语料库_2_0_0版本数据

    2026年1月28日 30 106 10

    数据集概述 本数据集为CalDraCor v2.0.0版本,是Calderón戏剧语料库项目的更新版本。该项目由图宾根大学罗曼语研究研讨会与数字人文中心合作发起,2023年由图宾根和斯图加特研究人员在DFG资助项目支持下更新,主要优化了戏剧结构拆分、角色注释、性别标注、类型分类及拼写修正等内容。 文件详解...
    packageimg
  • Webis_PRA_12_企业名称拼写错误对专利检索影响研究语料库_2012

    2026年1月20日 30 7 5

    数据集概述 本数据集为Webis专利检索语料库2012(Webis-PRA-12),核心内容是研究企业名称拼写错误对专利检索的影响。语料库基于2001-2010年美国专利商标局(USPTO)授权的2132825项专利提取,包含14189个不同企业名称,为专利检索领域的相关研究提供数据支持。 文件详解 文件名称:corpus-webis-...
    packageimg
  • Multi_CAST_Based_Kalamang语言口语文本标注语料库数据_v2311

    2026年1月13日 30 112 95

    数据集概述 本数据集为Multi-CAST多语言口语文本标注语料库的一部分,包含Kalamang语言的标注口语文本数据。数据集由Eline Visser于2023年贡献,属于Multi-CAST语料库的2311版本,旨在为语言学研究提供标准化的多语言口语资源。 文件详解 文件名称:Multi-CAST/mckalamang-v2311.zip...
    packageimg