找到6个数据集

分类: 公开数据 标签: 词嵌入

过滤结果
  • Tigrinya_Analogy_Test_词嵌入模型评估数据集

    2026年2月13日 30 67 41

    数据集概述 本数据集是提格利尼亚语版的谷歌类比测试集,用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证,剔除了不适用的条目,最终包含一万八千四百六十五条语义和句法类比条目,分为首都、货币、家庭、时态等九个测试小节。 文件详解 文件名称:TigrinyaAnalogyTest.zip 文件格式:ZIP...
    packageimg
  • Sentiment_Aligned_乌拉尔语系四语言情感分析与词嵌入数据_2023

    2026年1月15日 30 3 2

    数据集概述 本数据集包含厄尔兹亚语、科米-齐良语、莫克沙语和乌德穆尔特语四种乌拉尔语系语言的情感分析相关数据,包括对齐的情感标注数据、词嵌入向量、代码及情感分析模型,适用于低资源语言情感分析研究。 文件详解 情感标注数据文件 文件名称:sentiment_eval_data.json 文件格式:JSON...
    packageimg
  • Replication_Package_Discord开发者问答辅助研究复现包数据

    2026年1月15日 30 17 4

    数据集概述 本数据集是论文“On the Helpfulness of Answering Developer Questions on Discord with Similar Conversations and Posts from the...
    packageimg
  • 德国联邦宪法法院平衡语言使用分析附录与复现数据集

    2025年12月23日 30 64 6

    数据集概述 本数据集包含论文《平衡是否为司法能动主义的手段?德国联邦宪法法院平衡语言使用分析》的在线附录与复现数据,采用文本数据方法(如词嵌入)分析司法推理,验证平衡语言与司法能动主义的关联,为相关法律研究提供实证支持。 文件详解 文件名称: replication.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • Stanford_GloVe_6B_Based_多维度词向量预训练完整数据

    2025年12月21日 30 56 29

    数据集概述 本数据集为GloVe 6B词向量,基于维基百科2014和Gigaword 5语料(共60亿个词元)训练生成,包含40万个词汇,提供50维、100维、200维、300维四种维度的词向量,已转换为gensim二进制格式并压缩为ZIP文件。 文件详解...
    packageimg
  • 西班牙语历时词用法图数据集DWUG_ES

    2025年12月5日 30 171 41

    数据集概述 该数据集包含西班牙语的历时词用法图(WUGs),提供词用法随时间变化的结构化数据,支持语义变化研究。版本为4.0.2,含修正后的词上下文、索引及匿名化标注,通过压缩包形式存储。 文件详解 文件名称:dwug_es.zip 文件格式:ZIP压缩包...
    packageimg