找到14个数据集

标签: 词汇频率

过滤结果
  • 北萨米语广播字幕语料库_2021_2024

    2026年2月1日 30 168 33

    数据集概述 本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。 文件详解 文件名称:sami_subtitles.json 文件格式:JSON...
    packageimg
  • Zhivlov_Ob_Ugrian_Swadesh词表注释数据2011

    2026年1月22日 30 38 27

    数据集概述 本数据集基于Zhivlov于2011年发布的《Ob-Ugrian语族(乌拉尔语系)注释Swadesh词表》,由The Global Lexicostatistical Database提供。数据以压缩包形式存储,包含Ob-Ugrian语族的Swadesh词表注释内容,是研究该语族词汇特征的基础资料。 文件详解...
    packageimg
  • SEG_Annual_Conferences_词汇与机构数据_1982_2019

    2026年1月19日 30 114 87

    数据集概述 本数据集为SEG(勘探地球物理学家学会)年度会议数据v2.0,涵盖1982-2019年共38届会议。包含词汇短语频率分析数据库SEGgrams.sqlite,以及记录参会企业、各国学术机构及对应机构数量的SEG_affiliations_data.sqlite,整体打包为压缩文件。 文件详解 文件名称:SEG_Annual-2.zip...
    packageimg
  • 古典与文学汉语学习者可靠词汇表原始频率数据集

    2025年12月16日 30 189 170

    数据集概述 该数据集包含古典与文学汉语学习者词汇表的原始频率计数,基于三个语料库(Micheal Loewe早期中文文本、正史、六部小说)构建,为汉语词汇研究提供基础数据支持。 文件详解 压缩包文件:...
    packageimg
  • 论证一词多义性与跨社区连接数据集

    2025年12月13日 30 208 204

    数据集概述 本数据集围绕“论证”一词的多义性展开,包含研究论文终稿及原始分析数据。核心内容为通过Scopus文献分析,揭示该词在不同学科、期刊和社区中的语义分层与共享机制,为理解科学语言如何促进跨领域合作提供数据支持。 文件详解 数据文件: word_frequencies.csv:...
    packageimg
  • 瑞士新冠疫情主流媒体词汇与命名实体分析数据集

    2025年12月12日 30 94 31

    数据集概述 本数据集通过自定义解析器和自然语言处理(NLP)流程,分析2020年1月至2021年5月主流媒体中德、法、意、英四种语言的瑞士新冠疫情相关新闻,提取词汇(Lemmas)和命名实体的出现频率,反映疫情信息传播趋势。 文件详解 metadata.xlsx: Excel格式文件,包含新闻文章检索策略、数量等元数据信息 export.zip:...
    packageimg
  • digital_词元在PD与TE项目中的分布数据集2016_2019_2021

    2025年12月4日 30 27 4

    数据集概述 该数据集记录了词元"digital"在PD与TE项目中2016、2019、2021年的分布情况,包含11个文件,以PDF格式为主,辅以Excel数据文件,为分析该词元在不同项目及年份的出现规律提供数据支持。 文件详解 PDF文档文件(共10个): 包含PCE 2021.pdf、PCE 2016.pdf、PD 2019.pdf、TE...
    packageimg
  • 阿拉伯语_英语双语者皮博迪词汇测试主观频率估计数据集

    2025年11月27日 30 50 37

    数据集概述 本数据集包含阿拉伯语-英语双语者对皮博迪词汇测试(PPVT)单词的主观频率估计数据,涉及词汇的语言形式、主观频率评分、词汇特征等信息,为双语词汇认知及心理语言学研究提供数据支持。 文件详解 文件名称: DATA_SET.sav 文件格式: SAV(SPSS数据格式) 字段映射:...
    packageimg
  • 英语词汇频率统计数据集WordsCSVDataset-jasperbutcher

    2025年4月24日 30 14 3

    英语词汇频率统计数据集WordsCSVDataset-jasperbutcher 数据来源:互联网公开数据 标签:自然语言处理,文本分析,词频统计,数据集,语言学,词汇学习,机器学习,统计分析 数据概述: 该数据集包含了来自互联网的大量文本数据,记录了英语词汇的出现频率。主要特征如下:...
    packageimg
  • 单词统计与频率分析数据集WordStatisticsandFrequencyAnalysisDataset-ment696

    2025年4月23日 30 33 11

    单词统计与频率分析数据集WordStatisticsandFrequencyAnalysisDataset-ment696 数据来源:互联网公开数据 标签:语言分析,文本挖掘,数据集,频率统计,自然语言处理,词汇研究,机器学习,教育研究 数据概述:...
    packageimg
  • 政治与非政治论坛词汇频率数据集WordFrequencyinPoliticalandNon-PoliticalSubredditDataset-anjay23

    2025年4月23日 30 74 65

    政治与非政治论坛词汇频率数据集WordFrequencyinPoliticalandNon-PoliticalSubredditDataset-anjay23 数据来源:互联网公开数据 标签:文本分析,词汇频率,社交媒体,数据集,政治研究,自然语言处理,机器学习,论坛分析...
    packageimg
  • 泰米尔语词汇频率分析数据集-aviiciii

    2025年4月21日 30 189 145

    泰米尔语词汇频率分析数据集-aviiciii 数据来源:互联网公开数据 标签:泰米尔语,词汇频率,自然语言处理,NLP,文本数据,语言研究,机器学习,数据集 数据概述:...
    packageimg
  • 韩国语词汇频率数据集

    2025年4月15日 30 149 76

    韩国语词汇频率数据集 数据来源:互联网公开数据 标签:词汇频率,韩国语,自然语言处理,NLP,词频统计,语言学,语料库,词根分析,借词研究 数据概述 本数据集由韩国国立国语研究院(National Institute of the Korean...
    packageimg
  • TOEIC服务词汇列表数据集

    2025年4月14日 30 106 89

    TOEIC服务词汇列表数据集 数据来源:互联网公开数据 标签:TOEIC,词汇表,英语学习,考试准备,语言分析,词汇频率,语法分析 数据概述:...
    packageimg