找到590个数据集

标签: 语言学研究

过滤结果
  • Reginsmál_诗歌手稿注释与语言学分析数据

    2026年2月9日 30 75 22

    数据集概述 本数据集包含《Reginsmál》诗歌的注释内容,涵盖Codex Regius手稿的摹本、 diplomatic 及标准化注释,同时从语言学角度对文本进行了词形还原和部分语法(如词性)分析。数据集仅含一个XML文件,聚焦诗歌文本的多维度注释与语言特征标注。 文件详解 文件名称:reginsmal.xml 文件格式:XML...
    packageimg
  • ALT_Based_亚洲语言树库项目缅甸语树库数据

    2026年1月31日 30 171 87

    数据集概述 本数据集是亚洲语言树库(ALT)项目下的缅甸语树库,包含约2万句从英文维基新闻翻译而来的缅甸语句子,由NICT和UCSY联合开发,遵循CC BY-NC-SA 4.0许可协议,为缅甸语自然语言处理研究提供结构化语料资源。 文件详解 压缩文件 文件名称:my-alt-190530.zip 文件格式:ZIP...
    packageimg
  • IDS_Based_Kalamang语言词典数据_存档

    2026年2月9日 30 106 101

    数据集概述 本数据集为Kalamang语言的IDS(Intercontinental Dictionary Series)词表,由Eline Visser于2021年编纂,收录于《洲际词典系列》。数据以压缩包形式提供,包含Kalamang语言的词汇资源,是研究该语言及相关语言学领域的基础资料。 文件详解 文件名称:intercontinental-...
    packageimg
  • IN01006_Based_梵语Rawan宪章XML文献数据

    2026年2月9日 30 70 25

    数据集概述 本数据集包含IN01006编号的Narendra的Rawan宪章梵语文献,以XML格式存储,无附加元数据。数据集仅含一个文件,用于提供结构化的梵语历史文献内容,支持梵语文献研究与文本分析。 文件详解 文件名称:IN01006.xml 文件格式:XML...
    packageimg
  • IN01026_Devagiri_Grant梵语XML铭文数据

    2026年2月9日 30 184 170

    数据集概述 本数据集包含IN01026号梵语铭文《Devagiri Grant of Devavarman》的XML文件,无元数据。数据核心为该梵语铭文的数字化文本内容,共1个文件,用于梵语铭文文献的数字化保存与研究。 文件详解 文件名称:IN01026.xml 文件格式:XML 字段映射介绍:包含Devavarman的Devagiri...
    packageimg
  • Snowclones_Master_多语言使用者认知与使用调查问卷数据

    2026年1月26日 30 94 17

    数据集概述 本数据集包含3份针对法语、英语、俄语使用者的调查问卷,是硕士论文《Snowclones研究》的配套调查工具,旨在收集使用者对snowclones结构的感知与使用情况,为语言学中snowclones现象的研究提供基础数据。 文件详解 文件名称:Questionnaire SC anglais.docx 文件格式:DOCX...
    packageimg
  • 数字化语言学词形变化标注框架研究数据_2020

    2026年2月1日 30 165 33

    数据集概述 本数据集是研究“Developing an annotation framework for word formation processes in comparative linguistics”的配套数据与代码,包含一个压缩文件,用于支持比较语言学领域词形变化过程标注框架的开发与应用,为相关语言学研究提供结构化的数据资源。 文件详解...
    packageimg
  • DWDS_Based_德语词源词典完整词条列表数据

    2026年1月31日 30 49 37

    数据集概述 本数据集为《德语词源词典》的词条列表,收录约24500个德语词汇,包含每个词汇在数字德语词典(DWDS)中的对应文章URL。该词典由沃尔夫冈·普法伊费尔领导的团队编写,涵盖词汇的年代、起源、亲属关系及词义演变等信息,是德语词源研究的重要参考资料。 文件详解 文件名称:etymwb-headwords.json 文件格式:JSON...
    packageimg
  • S5_Data_Swahili匿名IDI转录本数据

    2026年1月31日 30 36 1

    数据集概述 本数据集为S5 Data,包含斯瓦希里语中所有IDI(个体深度访谈)转录本的匿名版本,这些转录本基于S4 Data进行分析,并选择性翻译用于结果部分的引用。数据集仅包含一个文件。 文件详解 文件名称:S5 Data. IDIs transcripts.docx 文件格式:DOCX...
    packageimg
  • NVivo_Based_文本词频分析与工具对比数据集

    2026年1月31日 30 17 16

    数据集概述 本数据集包含使用NVivo工具生成的文本词频搜索结果文件,以及一份对比AntConc与NVivo词频结果的电子表格,共5个文件。数据聚焦于文本词频分析,支持工具间的词频结果对比,适用于文本处理相关研究。 文件详解 文档文件(.docx格式,共3个) 文件名称:Word Freq-Stem All-min3 Alphabetical...
    packageimg
  • Kpelle_Mano_语半自发话语标注论文补充数据

    2026年1月31日 30 63 18

    数据集概述 本数据集为待评审论文的补充材料,包含Kpelle语和Mano语的半自发话语标注内容,提供一份结构化的语言数据文件,支持相关语言学研究与分析。 文件详解 文件名称:all_data_submission.xlsx 文件格式:XLSX...
    packageimg
  • AnCora_西班牙语多层面标注语料库数据3_0_1

    2026年1月31日 30 105 81

    数据集概述 本数据集为AnCora 3.0.1西班牙语语料库,包含约50万字的新闻文本,覆盖词元、词性、句法成分、论元结构、动词语义类、名物化隐含论元等多层面标注,支持自然语言处理相关研究与应用。 文件详解 文件名称:AnCora 3.0.1 Spanish.zip 文件格式:ZIP...
    packageimg
  • ILR_RAS_新约多谓词原因结构语境数据库_1_1版

    2026年1月31日 30 95 56

    数据集概述 本数据集为新约文本中含多谓词原因结构的语境数据库,包含1630个原因语境(来自1504个经文),通过俄、英、法三种语言新约译本的原因连词自动提取并人工编辑生成,可用于单语言及类型学研究。另含86个语境的试点标注子样本,标注内容包括语义语用类型与信息结构。 文件详解 主数据库文件...
    packageimg
  • Neo_Latin_Based_早期采用者来源概述数据

    2026年1月31日 30 72 64

    数据集概述 本数据集包含新拉丁语术语dialectus早期采用者的来源概述,涵盖术语出现的作品出版信息、样本段落,以及早期采用者的社会、地理和学术背景信息,为研究该术语的起源与传播提供结构化参考。 文件详解 文件名称:The early adopters of Latin dialectus - overview of sources.xlsx...
    packageimg
  • forTEXT_Based_叙事学语篇标注集_可下载资源

    2026年1月30日 30 169 161

    数据集概述 本数据集为叙事学语篇标注集,适用于标注文本中的叙事元素,包含分析语篇(即叙事呈现方式)的基础类别,主要基于结构主义导向的叙事学研究成果,提供一个XML格式文件供下载使用。 文件详解 文件名称:forTEXT_Tagset_Narratologie_discours.xml 文件格式:XML...
    packageimg
  • TLS_Based_中国语言学词库_2024_07_23

    2026年1月30日 30 9 7

    数据集概述 本数据集为中国语言学词库(Thesaurus Linguae Sericae, TLS)的互联Markdown文件压缩包,包含一份2024年7月23日的词库数据压缩文件,无额外目录结构,主要用于语言学研究与词库应用场景。 文件详解 文件名称:tls-md-2024-07-23.zip 文件格式:ZIP...
    packageimg
  • Pyu_Based骠铭文语料库XML数据20180326

    2026年1月30日 30 84 62

    数据集概述 本数据集为骠铭文语料库的XML压缩文件,包含由Arlo Griffiths、Marc Miyake和Julian K. Wheatley完成的骠铭文转写内容,语料库通过指定网址持续更新。每个XML文件对应一份骠铭文,转写中用C表示未知辅音、V表示未知元音,为骠铭文研究提供结构化文本资源。 文件详解 文件名称:Corpus of Pyu...
    packageimg
  • xflr6_Source_人称合并词类型学评估补充材料数据

    2026年1月30日 30 191 58

    数据集概述 本数据集是论文《Assessing the typology of person portmanteaus》的补充材料,包含1个压缩文件,用于支撑人称合并词类型学的研究评估,为语言学领域相关分析提供辅助数据支持。 文件详解 文件名称:xflr6/portmanteaus-v1.0.zip 文件格式:ZIP...
    packageimg
  • SIMPITIKI_GITHUB_意大利语文本简化语料库数据

    2026年1月29日 30 132 24

    数据集概述 本数据集为意大利语文本简化语料库SIMPITIKI,包含两组简化文本对:第一组通过半自动方式从意大利语维基百科获取,第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件,无训练测试、数据标签或原始处理数据的划分。 文件详解 文件名称:simpitiki-v2.xml 文件格式:XML...
    packageimg
  • BayesTraits_世界语言家族系统地理学贝叶斯分析数据

    2026年1月29日 30 69 10

    数据集概述 本数据集包含使用BayesTraits对世界语言家族进行系统地理学分析的输入与输出文件,树拓扑结构来自Glottolog,分支长度改编自ASJP LDN度量,分析流程详情见Pipeline.pdf,同时提供用于复现分析和解析输出的脚本,共包含3个文件。 文件详解 输入树文件 文件名称:BayesTraits_input_trees.zip...
    packageimg