Stanford_GloVe_6B_Based_多维度词向量预训练完整数据

数据集概述

本数据集为GloVe 6B词向量,基于维基百科2014和Gigaword 5语料(共60亿个词元)训练生成,包含40万个词汇,提供50维、100维、200维、300维四种维度的词向量,已转换为gensim二进制格式并压缩为ZIP文件。

文件详解

  • 文件名称:glove.6B.50d.zip,文件格式:ZIP,包含50维的GloVe词向量,已转换为gensim二进制word2vec格式
  • 文件名称:glove.6B.100d.zip,文件格式:ZIP,包含100维的GloVe词向量,已转换为gensim二进制word2vec格式
  • 文件名称:glove.6B.200d.zip,文件格式:ZIP,包含200维的GloVe词向量,已转换为gensim二进制word2vec格式
  • 文件名称:glove.6B.300d.zip,文件格式:ZIP,包含300维的GloVe词向量,已转换为gensim二进制word2vec格式

数据来源

https://nlp.stanford.edu/projects/glove/

适用场景

  • 自然语言处理研究:用于词嵌入预训练模型,支持文本分类、情感分析等任务
  • 低资源环境应用:适用于Binder等内存受限环境的快速下载与加载
  • 学术实验复现:为自然语言处理相关研究提供标准化的词向量基础数据
  • 算法开发测试:用于验证基于词向量的算法性能与效果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 706.32 MiB
最后更新 2025年12月21日
创建于 2025年12月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。