数据集概述
本数据集为GloVe 6B词向量,基于维基百科2014和Gigaword 5语料(共60亿个词元)训练生成,包含40万个词汇,提供50维、100维、200维、300维四种维度的词向量,已转换为gensim二进制格式并压缩为ZIP文件。
文件详解
- 文件名称:glove.6B.50d.zip,文件格式:ZIP,包含50维的GloVe词向量,已转换为gensim二进制word2vec格式
- 文件名称:glove.6B.100d.zip,文件格式:ZIP,包含100维的GloVe词向量,已转换为gensim二进制word2vec格式
- 文件名称:glove.6B.200d.zip,文件格式:ZIP,包含200维的GloVe词向量,已转换为gensim二进制word2vec格式
- 文件名称:glove.6B.300d.zip,文件格式:ZIP,包含300维的GloVe词向量,已转换为gensim二进制word2vec格式
数据来源
https://nlp.stanford.edu/projects/glove/
适用场景
- 自然语言处理研究:用于词嵌入预训练模型,支持文本分类、情感分析等任务
- 低资源环境应用:适用于Binder等内存受限环境的快速下载与加载
- 学术实验复现:为自然语言处理相关研究提供标准化的词向量基础数据
- 算法开发测试:用于验证基于词向量的算法性能与效果