数据集 - 海数据

GPT的文本处理能力任务提取与评估数据

2026年2月10日 30 151 30

数据集概述本数据集包含多份表格，用于评估GPT 1、GPT 2、GPT 3、GPT 3.5和GPT 4从文本流程描述中提取任务的能力。数据基于Zenodo和PET数据集，通过多种相似性指标（如语义文本相似度、召回率、精确率、Jaccard指数等）衡量模型性能，并包含用户调查数据，总计4个文件。文件详解模型完整性数据文件...

ZIP

南非语言嵌入评估数据集_Simlex_和_WordSim

2026年1月30日 30 90 4

数据集概述本数据集包含针对南非语言（塞茨瓦纳语、塞佩迪语）的Simlex和WordSim评估数据，通过人工标注的单词对相似度评分，用于衡量语义相关性。单词对由英文手动翻译而来，可用于计算模型向量余弦相似度与人类评分的相关性，评估语言模型性能。数据集共含4个文件。文件详解文件名称：SimLex-999-orig - Sepedi.xlsx...

ZIP

复现包_基于OpenAI的嵌入语义代码审查评论相似度实证分析_2025

2026年1月23日 30 101 72

数据集概述本数据集是SEAA 2025会议论文《OpenAI嵌入在语义代码审查评论相似度中的实证分析》的复现包，包含所有人工标注数据及可复现论文结果和图表的Jupyter笔记本，共4个文件，支持研究人员验证和扩展相关分析。文件详解人工标注数据文件...

ZIP

DWUG_DE_Sense_Based_德语历史词义标注数据集_v1_0_1

2026年1月20日 30 94 27

数据集概述本数据集为DWUG DE词汇使用数据的子集，包含德语词汇的历史词义标注，涵盖经聚合清洗的词义标签、词汇使用对的二元语义接近度标签及词义变化标签，可用于词汇语义归纳与语义变化检测研究，版本为1.0.1。文件详解文件名称：dwug_de_sense.zip 文件格式：ZIP 字段映射介绍：压缩包内包含三类核心文件：...

ZIP

Global_Suicide_Based_全球自杀死亡率统计及文献数据_2000_2019

2026年1月13日 30 197 19

数据集概述本数据集包含2000-2019年全球159个国家的自杀死亡率统计数据（基于世界银行WDI指标）及相关文献数据，涵盖原始统计数据、文献记录、关键词分析、国家聚类、词嵌入向量和关联规则挖掘等六类归档内容，可支持自杀相关的公共卫生研究与文献计量分析。文件详解...

ZIP

进化表型黄金标准语料库与实体质量本体注释数据集

2025年12月22日 30 139 21

数据集概述本数据集包含进化表型描述的黄金标准语料库（源自系统发育研究的特征状态描述）及专家标注的实体质量（EQ）本体注释，可支持机器推理以量化表型描述的语义相似度，同时包含相关本体文件及用于评估机器标注工具性能的人工与机器生成注释。文件详解文档类文件： README.md：Markdown格式，说明数据集核心内容、结构及使用背景 Author-...

ZIP

数据73种语言句子级释义语料库TaPaCo

2025年12月22日 30 16 10

数据集概述该数据集为73种语言的句子级释义语料库TaPaCo，从Tatoeba数据库提取，经语言无关过滤和修剪步骤处理。含约190万句，每种语言20万至25万句，覆盖无其他释义数据集的语言，部分语言人工评估显示半数至四分之三释义正确。文件详解文件名称: tapaco_v1.0.zip：压缩包格式，包含73种语言的句子级释义语料库数据文件名称:...

ZIP

SemEval_2020任务3_语境中分级词相似度数据集

2025年12月21日 30 187 64

数据集概述该数据集为SemEval-2020任务3的研究资料，核心内容是探究语境对人类感知词相似度的影响，重点关注语境带来的连续（分级）语义变化，而非仅多义词的离散义项差异。数据集包含标注者对段落语境中词对相似度的评分数据，支持分析语境导致的相似度变化。文件详解文档文件：...

ZIP

基于大语言模型的威胁启发工具比较基准研究复现包

2025年12月10日 30 25 8

数据集概述本数据集是支持《基于大语言模型的威胁启发工具比较基准研究》的复现包，包含基线构建、工具输出、威胁模型评估比较及F1分数、冗余度等详细结果，还补充了指令影响、语义相似度阈值测试等验证结果。文件详解文件名称: dvanlanduyt_fgcs_replication-package.zip 文件格式: ZIP（压缩包）包含内容:...

ZIP

佛教梵语嵌入模型评估数据集

2025年12月4日 30 177 170

数据集概述本数据集为佛教梵语嵌入模型研究的评估数据集，包含语义相似度数据集、类比任务数据集，以及研究论文和标注指南文档，用于支持佛教梵语文本处理模型的性能评估。文件详解文件名称: ReadMe.txt 文件格式: TXT 内容: 包含语义相似度评分指南，定义0-6分的评分标准（从无关联到完全同义词），以及人工标注任务说明文件名称:...

ZIP

WNSimRep本体语义相似度度量与信息内容模型复制数据集

2025年11月27日 30 33 6

数据集概述该数据集是HESML软件库配套的复制数据集，基于WordNet 3.0构建，包含节点型、边型、同义词集对型三类数据文件，覆盖内在及语料库基信息内容模型与本体语义相似度度量，支持文献中相关模型的精确复现。文件详解压缩数据包：...

ZIP

语义相似度评估模型数据集

2025年11月5日 30 157 69

语义相似度评估模型数据集_Semantic_Similarity_Evaluation_Model_Dataset 数据来源：互联网公开数据标签：语义相似度, 文本嵌入, 自然语言处理, 深度学习, 模型评估, 文本分析, 预训练模型, 相似度计算数据概述：...

ZIP

文本语义相似度分析嵌入向量数据集

2025年11月2日 30 108 25

文本语义相似度分析嵌入向量数据集_Text_Semantic_Similarity_Analysis_Embedding_Vectors 数据来源：互联网公开数据标签：文本分析, 语义相似度, 嵌入向量, 机器学习, 自然语言处理, 文本表示, 模型训练, 数据集数据概述：...

ZIP

语义文本嵌入向量数据集

2025年11月1日 30 36 16

语义文本嵌入向量数据集_Semantic_Text_Embedding_Vectors 数据来源：互联网公开数据标签：文本嵌入, 语义相似度, 向量化, 自然语言处理, 深度学习, 文本检索, 知识图谱, 数据集数据概述：该数据集包含基于多问答场景下，使用DistilBERT模型生成的文本嵌入向量。主要特征如下：...

ZIP

文本语义向量嵌入数据集

2025年10月13日 30 208 58

文本语义向量嵌入数据集_Text_Semantic_Vector_Embeddings 数据来源：互联网公开数据标签：文本嵌入, 语义向量, 向量数据库, 文本检索, 语义相似度, 机器学习, 自然语言处理, 知识图谱数据概述：该数据集包含基于Multi-QA-MPNet-Base-v1模型生成的文本语义向量嵌入。主要特征如下：...

ZIP

文本检索模型评估结果数据集

2025年9月3日 30 88 13

文本检索模型评估结果数据集_Text_Retrieval_Model_Evaluation_Results 数据来源：互联网公开数据标签：文本检索, 信息检索, 模型评估, 语义相似度, 深度学习, 机器翻译, 知识图谱, 性能分析数据概述：...

ZIP

越南语文本语义相似度数据集

2025年8月30日 30 188 47

越南语文本语义相似度数据集_Vietnamese_Text_Semantic_Similarity_Dataset 数据来源：互联网公开数据标签：语义相似度, 文本匹配, 自然语言处理, 越南语, 文本数据, 机器学习, 语料库, 文本分析数据概述：该数据集包含来自越南语文本的多种类型数据，主要用于训练和评估语义相似度模型。主要特征如下：...

ZIP

文本语义向量数据集

2025年8月30日 30 22 13

文本语义向量数据集_Text_Semantic_Vector_Dataset 数据来源：互联网公开数据标签：文本向量化, 语义相似度, 嵌入向量, 自然语言处理, 深度学习, 文本检索, 向量数据库, DistilBERT 数据概述：该数据集包含经过DistilBERT模型处理生成的文本语义向量，记录了文本的语义特征。主要特征如下：...