找到197个数据集

标签: 计算语言学

过滤结果
  • 西班牙语复合时态变体研究数据集

    2026年2月12日 30 132 63

    数据集概述 本数据集聚焦西班牙语复合时态的变体研究,包含11个Excel文件,覆盖bemos_beis、sincretismo_hemos_hamos等不同语法变体主题,为西班牙语语法变体分析提供结构化数据支持。 文件详解 文件名称:bemos_beis.xlsx 文件格式:XLSX...
    packageimg
  • ACA_多语言核心论元标注数据库

    2026年2月12日 30 203 165

    数据集概述 本数据集包含英语、老挝语和俄语三种语言的及物从句语料库示例,标注了作为句法主语和宾语(A和P)的核心论元。数据集采用与Alena Witzlack-Makarevich共同开发的编码方案,包含数据库描述文档和三种语言的标注文本文件,总计四个文件,为跨语言句法结构研究提供结构化标注资源。 文件详解 数据库描述文档...
    packageimg
  • Complex_words_Based最短路径数据

    2026年2月9日 30 78 28

    数据集概述 本数据集核心内容为“Complex words as shortest paths”相关数据,以压缩包形式存储,未提供具体内容预览。数据集包含一个压缩文件,无训练测试、数据标签或原始处理数据的划分,可用于自然语言处理领域中复杂词与最短路径相关的研究。 文件详解 压缩文件 文件名称:zenodo_data.zip 文件格式:ZIP...
    packageimg
  • Chadic_Based_语方向词比较形态句法项目数据

    2026年1月31日 30 142 7

    数据集概述 本数据集是Chadic语方向词比较形态句法项目的修订重投版本,包含22个Jupyter Notebook代码文件、11个CSV数据文件和1个XLSX文件,共34个文件。内容覆盖语言方向词的形态句法分析、计算脚本及可视化相关数据,支持Chadic语方向词的比较研究与分析。 文件详解 代码文件(.ipynb)...
    packageimg
  • 会话性指数补充材料_社交媒体互动对话性评估数据

    2026年2月1日 30 184 79

    数据集概述 本数据集是论文《The Conversationality Index: A quantitative assessment of conversation in social media interactions》的补充材料,包含12组在线对话转录文本(Dataset S1)和1份对话性指数得分明细表格(Table...
    packageimg
  • VeLeSpa_Spanish_西班牙语动词词库数据

    2026年1月31日 30 159 8

    数据集概述 本数据集为VeLeSpa,是半岛西班牙语的动词词库,包含六百五十五三个动词的全部六十三个音系形式词形变化范式,以及对应的词目级和词形级频率数据。数据集共包含十个文件,涵盖数据表格、说明文档、代码文件等类型。 文件详解 数据文件(CSV格式) 文件名称:VeLeSpa_cells.csv、VeLeSpa_features-...
    packageimg
  • Eesthetic_爱沙尼亚语词形范式数据v1_0_5

    2026年1月31日 30 77 3

    数据集概述 本数据集为Eesthetic,是爱沙尼亚语动词和名词的词形范式集合,包含音位和正字法两种记法,适用于计算与人工分析,符合Paralex标准。数据集仅含一个压缩文件。 文件详解 文件名称:eesthetic-v1.0.5.zip 文件格式:ZIP...
    packageimg
  • LSJ_Based_LAGT古希英词典_计算分析用数据

    2026年1月30日 30 138 37

    数据集概述 本数据集是基于LSJ词典构建的古希英数字词典,专为古希语文本计算分析设计,支持LAGT数据集相关研究。包含64,774个原始词元、46,693个标准化词元及对应英文释义,附Python查询脚本,适用于离线Python工作流,助力古希腊语料库语义与词汇探索。 文件详解 文件名称:lsj_dictionary_v1_0_0.json...
    packageimg
  • VR_Swedish_Based历史语义变化词汇列表数据

    2026年1月30日 30 122 36

    数据集概述 本数据集为VR资助项目“Towards Computational Lexical Semantic Change Detection”(2018-01184)收集的瑞典词汇历史语义变化列表,包含过去几个世纪中发生语义变化的瑞典词汇信息,当前为暂停状态下的未完成版本,旨在促进合作与研究使用。 文件详解 文件名称:A list of...
    packageimg
  • Verb_forms_Based_动词形式实验脚本运行数据

    2026年1月30日 30 145 34

    数据集概述 本数据集包含运行实验脚本所需的动词形式数据,未进行训练/测试、数据/标签或原始/处理的拆分,仅包含一个JSON格式文件,用于支撑相关实验的执行。 文件详解 文件名称:verbs-all.json 文件格式:JSON 字段映射介绍:无公开预览或README信息,文件内容为运行实验脚本所需的动词形式相关数据。 适用场景...
    packageimg
  • TACO_Source_Twitter对话论点开源发布数据

    2026年1月30日 30 113 104

    数据集概述 本数据集为TACO(Twitter Arguments from COnversations)的开源发布数据,包含Twitter对话中的论点内容,以压缩包形式提供,无训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:TomatenMarc/TACO-Public-Data.zip 文件格式:.zip...
    packageimg
  • ChiWUG_Based_中文历时词使用图数据集_2023

    2026年1月29日 30 39 8

    数据集概述 本数据集包含中文历时词使用图(WUGs),聚焦词汇语义的历时变化分析。数据提供了图结构格式的词汇使用记录,可用于研究中文词汇在不同时间维度的语义演变规律,为中文词汇语义变化检测任务提供支撑。 文件详解 文件名称:chiwug.zip 文件格式:ZIP...
    packageimg
  • Parabank_Based_黎巴嫩亲属称谓范式标注完整数据

    2026年1月29日 30 200 184

    数据集概述 本数据集为Parabank项目中按亲属称谓范式标注的黎巴嫩亲属称谓数据,记录了符合该范式的黎巴嫩亲属称谓信息,可用于语言学领域中亲属称谓系统的研究,仅包含一个文件。 文件详解 文件名称:Parabank_Lebanese.xlsx 文件格式:XLSX...
    packageimg
  • MedLatin_Based_中世纪拉丁语作者分析数据集_v1

    2026年1月29日 30 210 155

    数据集概述 本数据集包含MedLatinEpi和MedLatinLit两个子数据集,合计324篇标注作者的中世纪拉丁语文本。其中MedLatinEpi含294篇书信类文本,MedLatinLit含30篇文学评论及各主题论著类文本,可为作者归属、作者验证等计算语言学任务提供研究基础。 文件详解 文件名称:MedLatin.zip 文件格式:ZIP...
    packageimg
  • 符号学研究中的南斯堪的纳维亚中石器时代艺术_计算语言学评估数据

    2026年1月28日 30 22 16

    数据集概述 本数据集为评估斯堪的纳维亚南部中石器时代装饰符号结构的计算语言学方法研究配套数据,包含研究基础数据表、补充材料及分析代码等4个文件,用于支持史前艺术符号意义的分析研究。 文件详解 README.txt 文件格式:TXT 字段映射介绍:说明数据集与论文及Zenodo补充材料的关联,概述各文件用途。...
    packageimg
  • CalDraCor_Based_戏剧语料库_2_0_0版本数据

    2026年1月28日 30 36 24

    数据集概述 本数据集为CalDraCor v2.0.0版本,是Calderón戏剧语料库项目的更新版本。该项目由图宾根大学罗曼语研究研讨会与数字人文中心合作发起,2023年由图宾根和斯图加特研究人员在DFG资助项目支持下更新,主要优化了戏剧结构拆分、角色注释、性别标注、类型分类及拼写修正等内容。 文件详解...
    packageimg
  • Parahungarian_Based_匈牙利名词范式词典数据集

    2026年1月28日 30 28 23

    数据集概述 本数据集为匈牙利名词数据集,基于Unimorph数据清理而来,采用Paralex标准格式构建,包含10个文件,涵盖结构化CSV表格、说明文档、元数据等。数据以关系模型组织,提供匈牙利名词的词形、词素、特征值等信息,适用于语言学研究与自然语言处理任务。 文件详解 数据文件(CSV格式,共5个)...
    packageimg
  • HCP_Based_历史汉语音韵学网络方法论文附源码数据2018

    2026年1月27日 30 94 79

    数据集概述 本数据集为论文《More on Network Approaches in Historical Chinese Phonology (音韻學)》配套的第一版源码和数据,由List, Johann-Mattis于2018年发表。数据以压缩包形式提供,包含支撑论文研究的相关代码与数据内容,为历史汉语音韵学的网络方法研究提供可复现的技术资源。...
    packageimg
  • Nicobarese_Source语言系统发育分析词表数据2021

    2026年1月27日 30 73 49

    数据集概述 本数据集基于改良的Swadesh 100词表,用于分析尼科巴语支的内部语言分支关系。尼科巴语支包含约七种语言,多数仅部分记录,仅两种语言有详细词典和语法描述,数据处理难度较高。数据集支持作者2021年在瑞典隆德ICAAL会议发表的论文及后续版本。 文件详解 文件名称:Nicobarese 100 lexicon+Nexus.xlsx...
    packageimg
  • NLAS_multi_Based_多语言自然语言论证方案语料库数据

    2026年1月27日 30 78 51

    数据集概述 本数据集为NLAS-multi多语言自然语言论证方案语料库,包含英文和西班牙文两种语言的论证方案,共计3810条,其中英文1893条、西班牙文1917条。数据涵盖推理关系7964组,以及同一主题下23781组论证冲突关系,总字数253516字,是研究多语言论证推理的结构化资源。 文件详解 文件名称:nlas-multi.json...
    packageimg