-
SentiTopicNet_Based_NLP数据与代码资源包
2026年1月29日 30 181 70
数据集概述 本数据集为SentiTopicNet相关的自然语言处理资源集合,包含原始数据、词典文件及配套代码。数据支持数据采集、预处理、情感分析和主题分析全流程任务,总计17个文件,覆盖数据、词典与代码三类资源,可用于自然语言处理相关的模型训练与分析。 文件详解 数据文件 文件名称:data.xlsx 文件格式:XLSX...
-
Stanford_GloVe_6B_Based_多维度词向量预训练完整数据
2025年12月21日 30 97 44
数据集概述 本数据集为GloVe 6B词向量,基于维基百科2014和Gigaword 5语料(共60亿个词元)训练生成,包含40万个词汇,提供50维、100维、200维、300维四种维度的词向量,已转换为gensim二进制格式并压缩为ZIP文件。 文件详解...
-
德语历时词用法图发现数据集
2025年12月19日 30 167 96
数据集概述 该数据集包含针对德语的历时词用法图(WUGs)发现数据。词用法日期对应语料库时间段中点(1800-1899、1946-1990),非文档精确日期,为德语词汇语义变化研究提供数据支持。 文件详解 文件名称: discowug.zip:该文件为压缩包格式,内部包含德语历时词用法图的相关数据。具体字段及结构需解压后查看,数据格式未提供预览信息。...
-
中文维基百科词向量模型训练数据集-文本语料-2023年
2025年4月25日 30 75 7
中文维基百科词向量模型训练数据集-文本语料-2023年 数据来源:互联网公开数据 标签:自然语言处理, 词向量, word2vec, 文本语料, 中文, 维基百科, 机器学习, 深度学习, 训练数据 数据概述:...



