找到1,784个数据集

标签: 语言学分析

过滤结果
  • 萨米语_s_后缀动词派生词研究数据

    2026年2月15日 30 90 2

    数据集概述 本数据集是萨米语中带-s-(-šš-)后缀的动词派生词表格,以表格形式呈现各萨米语支中已证实的派生词。基础词默认以北萨米语形式给出,包含芬兰语或来源文献所用语言的近似含义,适用时标注Eliel Lagercranz《拉普兰词汇》(1939)的对应条目编号。数据集含3个文件。 文件详解 文件名称:South-Saami-esjidh.xlsx...
    packageimg
  • 日琉方言_疑问文调查_语言研究数据

    2026年2月15日 30 169 141

    数据集概述 本数据集为日琉方言疑问文及疑问表现的描述与对照研究提供支持,包含用于调查的问卷(调查票)及使用该问卷采集的方言调查结果。数据集因容量分为两部分,涵盖青森、茨城、山梨等多地方言数据,部分方言附语音资料,另含调查票解说文章。 文件详解 主文件 文件名称:intr_20230323_1.zip 文件格式:ZIP...
    packageimg
  • 闪米特语分类补充数据集_2011年版

    2026年2月15日 30 72 46

    数据集概述 本数据集为Semitic语言分类研究的补充数据,旨在扩展可用于Semitic语言分类的语法特征列表,与Faber 1997和Gai 1994的数据集规模可比,满足平衡性要求。数据集最初于2011年都灵会议发布,后用于2017年Zemánek的文章研究。 文件详解 文件名称:SemiticClassificationCompl-...
    packageimg
  • 复制包开发者聊天摘要_LLM评估数据

    2026年2月15日 30 21 17

    数据集概述 本数据集是论文《Evaluating Large Language Models in Summarizing Developer Chat Conversations: A Linguistic...
    packageimg
  • Tigrinya_Analogy_Test_词嵌入模型评估数据集

    2026年2月13日 30 16 12

    数据集概述 本数据集是提格利尼亚语版的谷歌类比测试集,用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证,剔除了不适用的条目,最终包含一万八千四百六十五条语义和句法类比条目,分为首都、货币、家庭、时态等九个测试小节。 文件详解 文件名称:TigrinyaAnalogyTest.zip 文件格式:ZIP...
    packageimg
  • IN02006_Sanskrit_Epidoc梵语铭文XML数据

    2026年2月13日 30 109 99

    数据集概述 本数据集为Lajampat Trivikrama Pedestal of Manadeva铭文的梵语XML文件,是Epidoc格式的草稿版本,计划纳入Siddham档案。数据集包含1个XML文件,无元数据,文件类型单一。 文件详解 文件名称:IN02006.xml 文件格式:XML...
    packageimg
  • 西班牙语复合时态变体研究数据集

    2026年2月12日 30 190 152

    数据集概述 本数据集聚焦西班牙语复合时态的变体研究,包含11个Excel文件,覆盖bemos_beis、sincretismo_hemos_hamos等不同语法变体主题,为西班牙语语法变体分析提供结构化数据支持。 文件详解 文件名称:bemos_beis.xlsx 文件格式:XLSX...
    packageimg
  • 圣伯纳德_圣经动物志_原始数据

    2026年2月12日 30 101 9

    数据集概述 本数据集为L. Mellerin文章《圣伯纳德的圣经动物词汇:开启创造神学的想象福音化》的原始数据,包含圣伯纳德著作中动物词汇的完整列表及对应圣经文本参考,用于神学与文学领域的词汇分析研究,数据集仅含一个文件。 文件详解 文件名称:Animaux_oeuvres_Bernard_Clairvaux.xlsx 文件格式:XLSX...
    packageimg
  • ACA_多语言核心论元标注数据库

    2026年2月12日 30 75 30

    数据集概述 本数据集包含英语、老挝语和俄语三种语言的及物从句语料库示例,标注了作为句法主语和宾语(A和P)的核心论元。数据集采用与Alena Witzlack-Makarevich共同开发的编码方案,包含数据库描述文档和三种语言的标注文本文件,总计四个文件,为跨语言句法结构研究提供结构化标注资源。 文件详解 数据库描述文档...
    packageimg
  • 探索欧盟国家网站的英语主导地位研究数据

    2026年2月9日 30 77 58

    数据集概述 本数据集包含欧盟国家网站英语使用情况研究的相关指标和累积信息,对应研究论文的方法、结果与讨论部分内容。数据集共24个文件,主要记录欧盟各国网站的语言使用数据及相关计算指标,支持对英语在欧盟国家网站中主导地位的分析。 文件详解 国家域名数据文件...
    packageimg
  • 塞尔维亚语情态动词补语语料数据_2024

    2026年2月9日 30 77 70

    数据集概述 本数据集包含从塞尔维亚网络语料库(SrWaC)提取的1000条共现行,聚焦情态动词“morati”(必须)和“moći”(能够)的从句补语类型(不定式与da+现在时从句)。数据标注了情态语义、主语生命性、主语题元角色等语言学特征,用于研究塞尔维亚语情态结构中补语选择的影响因素。 文件详解 文件名称:corpus data.xlsx...
    packageimg
  • Reginsmál_诗歌手稿注释与语言学分析数据

    2026年2月9日 30 9 7

    数据集概述 本数据集包含《Reginsmál》诗歌的注释内容,涵盖Codex Regius手稿的摹本、 diplomatic 及标准化注释,同时从语言学角度对文本进行了词形还原和部分语法(如词性)分析。数据集仅含一个XML文件,聚焦诗歌文本的多维度注释与语言特征标注。 文件详解 文件名称:reginsmal.xml 文件格式:XML...
    packageimg
  • IDS国际大词典系列_2021汉语IDS词表数据

    2026年2月9日 30 79 66

    数据集概述 本数据集为Hsiao-jung Yu与Yifan Wang于2021年编制的汉语IDS词表,收录于《洲际词典系列》(The Intercontinental Dictionary Series)。该词表是汉语语言学研究的结构化资源,可用于汉语词汇、语义等相关领域的分析,数据集包含1个压缩文件。 文件详解 压缩文件...
    packageimg
  • Dogon_ATR_Based多贡语比较词干数据

    2026年2月9日 30 171 42

    数据集概述 本数据集包含多贡语(Dogon languages)间的ATR(高级舌冠根Advanced Tongue Root)比较词干数据,旨在为语言学研究提供多贡语族内词汇形态的对比分析基础。数据集仅包含一个文档文件。 文件详解 文件名称:Dogon ATR appendix.docx 文件格式:DOCX...
    packageimg
  • IN00606_Source_甘内斯伽德铭文数据

    2026年1月31日 30 127 65

    数据集概述 本数据集为编号IN00606的甘内斯伽德铭文(DHRUVASENA I 207)的XML格式数字化数据,包含一份TEI标准的XML文件,用于记录该历史铭文的内容与元数据,支持铭文研究与数字化存档。 文件详解 文件名称:IN00606_TEI.xml 文件格式:XML...
    packageimg
  • ALT_Based_亚洲语言树库项目缅甸语树库数据

    2026年1月31日 30 36 13

    数据集概述 本数据集是亚洲语言树库(ALT)项目下的缅甸语树库,包含约2万句从英文维基新闻翻译而来的缅甸语句子,由NICT和UCSY联合开发,遵循CC BY-NC-SA 4.0许可协议,为缅甸语自然语言处理研究提供结构化语料资源。 文件详解 压缩文件 文件名称:my-alt-190530.zip 文件格式:ZIP...
    packageimg
  • Complex_words_Based最短路径数据

    2026年2月9日 30 59 36

    数据集概述 本数据集核心内容为“Complex words as shortest paths”相关数据,以压缩包形式存储,未提供具体内容预览。数据集包含一个压缩文件,无训练测试、数据标签或原始处理数据的划分,可用于自然语言处理领域中复杂词与最短路径相关的研究。 文件详解 压缩文件 文件名称:zenodo_data.zip 文件格式:ZIP...
    packageimg
  • Chadic_Based_语方向词比较形态句法项目数据

    2026年1月31日 30 203 16

    数据集概述 本数据集是Chadic语方向词比较形态句法项目的修订重投版本,包含22个Jupyter Notebook代码文件、11个CSV数据文件和1个XLSX文件,共34个文件。内容覆盖语言方向词的形态句法分析、计算脚本及可视化相关数据,支持Chadic语方向词的比较研究与分析。 文件详解 代码文件(.ipynb)...
    packageimg
  • IDS_Based_Kalamang语言词典数据_存档

    2026年2月9日 30 154 13

    数据集概述 本数据集为Kalamang语言的IDS(Intercontinental Dictionary Series)词表,由Eline Visser于2021年编纂,收录于《洲际词典系列》。数据以压缩包形式提供,包含Kalamang语言的词汇资源,是研究该语言及相关语言学领域的基础资料。 文件详解 文件名称:intercontinental-...
    packageimg