找到70个数据集

标签: 词汇特征

过滤结果
  • CLDF_NorthPeruLex_秘鲁北部小语种词汇数据集

    2026年1月29日 30 125 91

    数据集概述 本数据集为基于CLDF格式的词汇数据集,源自Ugarte等人即将发布的"NorthPeruLex"项目,收录秘鲁北部小语种家族及孤立语言的词汇信息,为该区域语言研究提供结构化数据支持。 文件详解 主文件包 文件名称:lexibank/northperulex-v0.2.zip 文件格式:ZIP...
    packageimg
  • LLM_Prompts_基于不同模型角色参数的提示词生成数据

    2026年1月29日 30 88 35

    数据集概述 本数据集包含ChatGPT3.5、ChatGPT4、Llama3-8B、Mistral-7B四种模型在NYT和HC3主题下,不同角色与参数配置生成的提示词数据。可用于研究不同参数/角色配置对大语言模型词汇层面特征的影响,共包含13个文件。 文件详解 文件名称:0_Base_Topics.xlsx 文件格式:XLSX...
    packageimg
  • Caucalex_Based_高加索52语言词汇数据集1_0

    2026年1月29日 30 12 0

    数据集概述 本数据集为Caucalex 1.0,包含高加索地区52种语言的词汇数据,覆盖卡尔特维利语系、纳赫-达吉斯坦语系、西北高加索语系、印欧语系和突厥语系五大语言家族,是研究高加索语言词汇特征的基础资料。 文件详解 文件名称:Caucalex 1.0.xlsx 文件格式:XLSX...
    packageimg
  • La_Pola_Siero_阿斯图里亚斯地图第2问方言语料数据

    2026年1月29日 30 111 89

    数据集概述 本数据集为阿斯图里亚斯地图第2问相关的La Pola Siero方言语料,包含一份文档文件,聚焦该方言在特定问题场景下的语言表达,为方言研究提供原始语料支持。 文件详解 文件名称:Mapa de Asturias.Pregunta2.docx 文件格式:DOCX...
    packageimg
  • Mienic_lexical_isogloss_database

    2026年1月28日 30 183 104

    数据集概述 本数据集为Mienic语言词汇同言线数据库,包含已识别或潜在的Mienic语言变体词汇同言线相关信息,以单个Excel文件形式呈现,无目录结构和文件拆分,可用于语言变体的词汇特征分布研究。 文件详解 文件名称:Mienic_lexical_isogloss_database.xlsx 文件格式:XLSX...
    packageimg
  • Enggano_Based_1895年词汇表CLDF标准化数据集

    2026年1月27日 30 154 24

    数据集概述 本数据集为1895年Enggano词汇表的数字化CLDF格式版本,匹配了Holle List的英文及印尼语释义,包含Enggano词汇的通用正字法、原始转录、音素分割及国际音标转写等信息,适用于濒危语言词汇研究与跨语言比较分析。 文件详解 文件名称:engganolang/holle-list-enggano-1895-2.0.0.zip...
    packageimg
  • Pama_Nyungan_Based_颜色词汇修订数据_语言学分析

    2026年1月27日 30 182 77

    数据集概述 本数据集为修订后的Pama-Nyungan语言颜色词汇表,包含约187种Pama-Nyungan语言的基础颜色术语。数据基于PNAS发表的Word表格修订,补充了Nash 2017年研究的修正内容,为语言学领域研究颜色术语演变提供结构化数据支持。 文件详解 文件名称:amended PNy colour vocabs...
    packageimg
  • Top_100_collected_丹麦经典作家作品高频评论词汇数据

    2026年1月25日 30 75 15

    数据集概述 本数据集包含丹麦五部经典文学作品数字版本中评论最多的一百个词汇,涉及作家包括Georg Brandes、Grundtvig、Henrik Ibsen、Ludvig Holberg、Søren Kierkegaard和Zacharias Topelius。数据存储于单个Excel文件中,可用于分析丹麦文学作品的评论热点词汇及文本特征。...
    packageimg
  • IN01011_Source_Sudevaraja宪章梵语XML数据

    2026年1月23日 30 22 8

    数据集概述 本数据集包含IN01011号Sudevaraja的Sirpur宪章梵语文本,以XML格式存储,无元数据。数据集仅含一个文件,无目录层级划分,无训练/测试、数据/标签或原始/处理数据的拆分,文件类型单一为XML。 文件详解 文件名称:IN01011.xml 文件格式:XML...
    packageimg
  • Zhivlov_Ob_Ugrian_Swadesh词表注释数据2011

    2026年1月22日 30 185 184

    数据集概述 本数据集基于Zhivlov于2011年发布的《Ob-Ugrian语族(乌拉尔语系)注释Swadesh词表》,由The Global Lexicostatistical Database提供。数据以压缩包形式存储,包含Ob-Ugrian语族的Swadesh词表注释内容,是研究该语族词汇特征的基础资料。 文件详解...
    packageimg
  • CLDF_Based_Gran_Chaco区域语言比较词表数据集2022

    2026年1月22日 30 77 18

    数据集概述 本数据集为CLDF格式,对应Brid等人2022年发布的《Gran Chaco区域语言比较词表》,包含该区域语言的比较词表信息,是研究Gran Chaco地区语言特征的结构化数据资源,共含一个文件。 文件详解 压缩包文件 文件名称:lexibank/chacolanguages-v0.3.zip 文件格式:ZIP...
    packageimg
  • MorphGNT_SBLGNT_Based圣经希腊文形态学标注数据6_12

    2026年1月21日 30 108 22

    数据集概述 本数据集为MorphGNT项目发布的SBL希腊文新约(SBLGNT)版本6.12形态学标注数据,主要包含对附着词规范字段的修正,以及调整腓立比书2:1中最后一个“τις”的性属标注,与其他分析保持一致。数据以压缩包形式提供,用于圣经文本的形态学研究与分析。 文件详解 文件名称:morphgnt/sblgnt-6.12.zip...
    packageimg
  • La_Pola_Siero_Based_阿斯图里亚斯地图第五问口语语料数据

    2026年1月21日 30 91 59

    数据集概述 本数据集为关于阿斯图里亚斯地图第五问的口语语料数据,来自La Pola Siero地区的口语语料库。数据集包含1个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理集,主要文件类型为DOCX格式。 文件详解 文件名称:Mapa de Asturias.Pregunta5.docx 文件格式:DOCX...
    packageimg
  • Starostin_Karen_Based语族斯瓦迪士词表标注数据集2017

    2026年1月20日 30 20 4

    数据集概述 本数据集为CLDF格式,源自Starostin 2017年发布的《Karen语族标注斯瓦迪士词表》,包含该语族的斯瓦迪士词表标注内容,支持语言词汇统计学研究,仅含一个压缩文件。 文件详解 文件名称:lexibank/starostinkaren-v1.0.zip 文件格式:ZIP...
    packageimg
  • OBO_Foundry_Snapshot_本体词汇分析数据集_20220316

    2026年1月19日 30 82 4

    数据集概述 本数据集为2022年3月16日的OBO Foundry本体快照,用于OBO Foundry本体的词汇分析。包含3个文件,无目录层级,主要文件类型为ZIP压缩包和TSV表格,记录本体版本、候选本体及成员本体信息。 文件详解 candidate_ontologies.zip 文件格式:ZIP 内容说明:候选本体压缩包,包含OBO...
    packageimg
  • Neologism_Based_早期英语信件新词使用与用户研究数据_论文相关数据集

    2026年1月15日 30 170 11

    数据集概述 本数据集为论文“From plenipotentiary to puddingless: Users and uses of new words in early English...
    packageimg
  • IN01048_Based_Mrgesavarman_Banavasi碑铭梵语XML文本数据

    2026年1月17日 30 96 49

    数据集概述 本数据集包含IN01048号Banavasi碑铭(Mrgesavarman时期)的梵语文本XML文件,无附加元数据。数据为单一文件,直接记录碑铭的梵语内容,是研究古代印度碑铭文献、梵语语言及历史文化的基础数字化资源。 文件详解 文件名称:IN01048.xml 文件格式:XML...
    packageimg
  • Kassian_Pannonian_Based潘诺尼亚西斯拉夫语方言词汇补充材料数据2025

    2026年1月17日 30 137 103

    数据集概述 本数据集是论文《潘诺尼亚作为西斯拉夫语言:方言词汇》的补充材料,包含匈牙利语中的早期斯拉夫借词列表,用于支持潘诺尼亚语言归属西斯拉夫语系的语言学研究,为相关语言演变分析提供基础数据。 文件详解 文件名称:Kassian_Pannonian_supplement_2015.docx 文件格式:DOCX...
    packageimg
  • Wangerooge_Frisian_Based_已灭绝东弗里斯兰语录音转录数据集

    2026年1月15日 30 91 78

    数据集概述 本数据集包含已灭绝的东弗里斯兰语——Wangerooge弗里斯兰语的转录录音资料,总时长34分钟。录音于1924-1927年采集,涉及4位母语使用者,2024-25年完成转录,提供音频及对应的文本转录与英文翻译,是该濒危语言研究的重要资料。 文件详解 压缩包文件(Archive files) 文件名称:包括rec-br-...
    packageimg
  • Polyglotta_Africana_Based_非洲语言词汇比较数据集_v2_1

    2026年1月14日 30 210 30

    数据集概述 本数据集基于Koelle 1854年的《Polyglotta Africana》,包含非洲一百多种语言中近三百个词汇和短语的比较词汇表,以CLDF格式整理,为非洲语言比较研究提供结构化资源。 文件详解 文件名称:lexibank/polyglottaafricana-v2.1.zip 文件格式:ZIP(压缩包)...
    packageimg