找到12个数据集

标签: Word2Vec

过滤结果
  • Tigrinya_Analogy_Test_词嵌入模型评估数据集

    2026年2月13日 30 107 62

    数据集概述 本数据集是提格利尼亚语版的谷歌类比测试集,用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证,剔除了不适用的条目,最终包含一万八千四百六十五条语义和句法类比条目,分为首都、货币、家庭、时态等九个测试小节。 文件详解 文件名称:TigrinyaAnalogyTest.zip 文件格式:ZIP...
    packageimg
  • Urdu_Based乌尔都语攻击性内容数据集及实现代码

    2026年1月30日 30 114 15

    数据集概述 本数据集包含乌尔都语攻击性语言相关的Python代码和多种特征文件,用于复现研究论文结果并扩展相关发现。数据集共含5个文件,无目录层级,主要分为数据文件和代码文件两类,支持乌尔都语文本的攻击性内容分析任务。 文件详解 数据文件(.xlsx格式,共3个) dataset-unigram.xlsx:乌尔都语攻击性内容的单字词特征数据...
    packageimg
  • Cortex_Submission_统计分析原始实验数据

    2026年1月30日 30 150 53

    数据集概述 本数据集为Cortex提交的统计分析原始数据,包含33个文件,涉及实验设计、数据处理、结果分析等内容,覆盖模型、相关性、预测等统计维度,以及控制实验、原始数据处理、CT医学影像、图片视觉、文本词汇等多领域关键词,可支持多维度统计分析研究。 文件详解 统计分析文件(.spwb格式,15个) 示例文件:ageacquisition...
    packageimg
  • Exploiting_Hierarchy_医疗概念嵌入_ICD_10分层数据集

    2026年1月19日 30 93 45

    数据集概述 本数据集包含基于ICD-10编码标准构建的预训练医疗概念嵌入,通过扩展Word2Vec算法融入医疗编码的分层信息。数据来自美国中大西洋地区大型综合医疗机构约60万患者的数据集,包含ICD-10代码和CCSR分类的嵌入向量,可用于医疗数据分析与分类任务,共包含2个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • Board_Leadership_Based美国上市公司董事会领导力数据库及机器学习扩展脚本2025

    2026年1月4日 30 112 24

    数据集概述 本数据集包含美国上市公司董事会领导力数据库及配套机器学习脚本,数据库通过监督学习扩展人工编码数据生成,涵盖CEO二元性、董事会主席定位等变量;脚本用于训练模型及对企业委托书相关变量评分,支持其他结构数据的扩展应用,共9个文件。 文件详解 文档文件 文件名称:Board Leadership Dataset & Tool...
    packageimg
  • 架构侵蚀违规症状自动化识别研究复现包

    2025年12月21日 30 167 73

    数据集概述 本数据集为架构侵蚀违规症状自动化识别研究的复现包,包含代码审查评论数据、特征文件、预训练词嵌入模型下载链接、实验脚本及开发者调查访谈资料,支持复现机器学习、深度学习及大语言模型分类器实验。 文件详解 该数据集由三个压缩文件构成,具体说明如下: - 数据文件包: data.zip - 内容说明:包含特征文件、预训练词嵌入模型下载链接及标注数据...
    packageimg
  • 慕课视频讲座嵌入向量与主题分布数据集-200门课程-saurabhshahane

    2025年5月31日 30 185 102

    慕课视频讲座嵌入向量与主题分布数据集-200门课程-saurabhshahane 数据来源:互联网公开数据 标签:MOOC,慕课,视频讲座,自然语言处理,Word2Vec,LDA,Gensim,词嵌入,主题分布,教育,在线学习 数据概述:...
    packageimg
  • 服装商品推荐用户购买预测数据集ApparelProductRecommendationUserPurchasePrediction-aruaru0

    2025年5月30日 30 133 17

    服装商品推荐用户购买预测数据集ApparelProductRecommendationUserPurchasePrediction-aruaru0 数据来源:互联网公开数据 标签:商品推荐, 用户行为分析, 协同过滤, 深度学习, Word2Vec, 零售, 预测建模, 客户画像 数据概述:...
    packageimg
  • 毒性分类数据集

    2025年5月5日 30 94 5

    毒性分类数据集 数据来源:互联网公开数据 标签:毒性分类,文本分析,机器学习,自然语言处理,Word2Vec,TF-IDF,文本特征提取,分类模型训练 数据概述: 本数据集是一个用于毒性分类任务的文本数据集,包含经过预处理和特征提取的文本样本,旨在帮助研究者和开发者进行毒性文本识别和分类模型的训练与优化。数据集通过Word2Vec和TF-...
    packageimg
  • 自然语言处理Word2Vec模型文章标题数据集NaturalLanguageProcessingWord2VecModelArticleTitles-al...

    2025年4月29日 30 92 8

    自然语言处理Word2Vec模型文章标题数据集NaturalLanguageProcessingWord2VecModelArticleTitles-alisamalakhova 数据来源:互联网公开数据 标签:自然语言处理, 文本分析, 词嵌入, Word2Vec, Gensim, 机器学习, 文本挖掘, 语料库 数据概述:...
    packageimg
  • 预处理的Word2Vec词向量数据集PreprocessedWord2VecEmbeddingsDataset-louvalita

    2025年4月26日 30 6 0

    预处理的Word2Vec词向量数据集PreprocessedWord2VecEmbeddingsDataset-louvalita 数据来源:互联网公开数据 标签:自然语言处理,词向量,Word2Vec,数据集,文本分析,机器学习,深度学习,语义分析 数据概述:...
    packageimg
  • 电影评论Word2Vec词嵌入数据集-2011-thedevastator

    2025年4月22日 30 23 19

    电影评论Word2Vec词嵌入数据集-2011-thedevastator 数据来源:互联网公开数据 标签:电影评论,Word2Vec,词嵌入,文本分析,情感分析,自然语言处理,机器学习 数据概述:...
    packageimg