找到13个数据集

标签: 余弦相似度

过滤结果
  • 用户活动标签推理评估数据集

    2026年2月12日 30 134 48

    数据集概述 本数据集为评估语言模型从事件语义描述生成用户活动标签的能力而构建,包含30项活动(10项含2个事件、10项含3个事件、10项含4个事件),通过余弦相似度对比模型生成标签与人工标注标签的准确性,支持用户界面交互活动的标签推理研究。 文件详解 screenshots_&_soms.zip 文件格式:ZIP...
    packageimg
  • OMOP2OBO_Source_医疗术语与生物医学本体映射数据V1_0

    2026年1月26日 30 126 19

    数据集概述 本数据集为OMOP2OBO疾病事件映射数据V1.0,包含OMOP标准临床术语(SNOMED CT)与Human Phenotype Ontology(HPO)、Mondo本体的映射关系。映射通过OMOP2OBO算法自动生成或人工创建,经UMLS语义类型过滤后,采用TF-...
    packageimg
  • OMOP2OBO_Based_OMOP药物暴露成分与OBO本体映射数据_V1_0

    2026年1月19日 30 52 17

    数据集概述 本数据集为OMOP2OBO Drug Exposure Ingredient Mappings V1.0,通过OMOP2OBO算法生成,实现OMOP标准药物暴露成分概念(基于RxNorm)与ChEBI、NCBITaxon、PRO、VO等OBO Foundry本体的映射,含自动(基于TF-IDF嵌入、余弦相似度)及手动映射,支持语义互操作性。...
    packageimg
  • Monte_Carlo_Method_Based_机器翻译服务元测试蒙特卡洛方法伴随数据集

    2026年1月13日 30 164 18

    数据集概述 本数据集是“机器翻译服务元测试蒙特卡洛方法”的伴随数据,基于原始数据集优化分析方法,针对中文、日文等亚洲语言采用字符级分割,重新计算BLEU和余弦相似度得分,提供更精准的机器翻译服务测试评估数据。 文件详解 文件名称:Dataset Part II.xlsx 文件格式:XLSX...
    packageimg
  • 论文_使用知识图谱嵌入和层次聚类的分类法提取_补充材料

    2025年12月15日 30 31 15

    数据集概述 该数据集为论文"使用知识图谱嵌入和层次聚类的分类法提取"的补充材料,包含非表达性分类法提取任务的输入数据、黄金标准,以及非表达性和表达性案例的提取分类法示例,可辅助理解论文研究方法与结果。 文件详解 readme.txt: 文本格式,说明文件内容,包括非表达性与表达性分类法提取的数据构成,如黄金标准文件、输入数据及提取结果文件的对应关系。...
    packageimg
  • 新闻信息传播数据集

    2025年12月11日 30 191 108

    数据集概述 该数据集围绕体育(FIFA世界杯)、自然灾害(地震)、气候变化(全球变暖)三大领域的新闻信息传播展开,包含多语言新闻文章及元数据,为研究不同事件的信息传播特征提供支持。 文件详解 核心数据文件(CSV格式): FIFAWorldCup - Metadata.csv:FIFA世界杯事件的元数据文件 Earthquake -...
    packageimg
  • 诡异语义分析数据集

    2025年12月8日 30 4 1

    数据集概述 该数据集包含计算语言学脚本的整理结果,基于语言学领域325篇德文学术文本(含AI生成与人类撰写),通过余弦相似度(阈值0.7)将词元聚类为语义类别,涵盖不同词性(名词、动词等)及组合的多次运行结果,提供可视化、成员列表及数值数据文件。 文件详解 热图文件(HTML格式):...
    packageimg
  • 法律文本相似度分析数据集LegalTextSimilarityAnalysisDataset-sagarrathore

    2025年5月1日 30 55 21

    法律文本相似度分析数据集LegalTextSimilarityAnalysisDataset-sagarrathore 数据来源:互联网公开数据 标签:法律文本, 相似度分析, 语义分析, 余弦相似度, LSA, 文本挖掘, 数据比对, 法律科技 数据概述:...
    packageimg
  • 俄语文本摘要评估指标数据集RussianTextSummarizationEvaluationMetrics-leinee

    2025年4月29日 30 45 44

    俄语文本摘要评估指标数据集RussianTextSummarizationEvaluationMetrics-leinee 数据来源:互联网公开数据 标签:文本摘要, 俄语, 评估指标, 自动摘要, 自然语言处理, 机器翻译, ROUGE, 余弦相似度 数据概述:...
    packageimg
  • MSCI余弦相似度原始计数与标准化数据集MSCICosineSimilarityRawCountvsNormalizedDataset-shinnyayoshida

    2025年4月26日 30 162 155

    MSCI余弦相似度原始计数与标准化数据集MSCICosineSimilarityRawCountvsNormalizedDataset-shinnyayoshida 数据来源:互联网公开数据 标签:金融指数,数据集,余弦相似度,MSCI,标准化,统计分析,机器学习,经济研究 数据概述:...
    packageimg
  • 文本相似度分析数据集前1万行CosineSimilaritiesDataset-First10kRows-prateiklohani

    2025年4月24日 30 178 126

    文本相似度分析数据集前1万行CosineSimilaritiesDataset-First10kRows-prateiklohani 数据来源:互联网公开数据 标签:文本分析,相似度,数据集,自然语言处理,机器学习,余弦相似度,数据挖掘,向量化 数据概述: 该数据集包含了文本相似度分析的结果,记录了文本对之间的余弦相似度得分。主要特征如下:...
    packageimg
  • 好时麦芽饮料产品相似度分析数据集BournvitaDatasetforCosineSimilarities-kareemrasheed89

    2025年4月23日 30 25 7

    好时麦芽饮料产品相似度分析数据集BournvitaDatasetforCosineSimilarities-kareemrasheed89 数据来源:互联网公开数据 标签:产品分析,数据集,余弦相似度,市场营销,品牌研究,饮料行业,机器学习,文本分析 数据概述:...
    packageimg
  • 电影推荐系统用户偏好电影推荐数据集

    2025年4月14日 30 177 70

    电影推荐系统用户偏好电影推荐数据集 数据来源:互联网公开数据 标签:电影推荐,用户偏好,机器学习,TF-IDF,余弦相似度,电影数据,Pandas,Scikit-learn,数据分析 数据概述: 本数据集基于用户偏好,构建了一个电影推荐系统。它使用电影数据集,并应用机器学习技术,包括TF-...
    packageimg