-
用户活动标签推理评估数据集
2026年2月12日 30 100 73
数据集概述 本数据集为评估语言模型从事件语义描述生成用户活动标签的能力而构建,包含30项活动(10项含2个事件、10项含3个事件、10项含4个事件),通过余弦相似度对比模型生成标签与人工标注标签的准确性,支持用户界面交互活动的标签推理研究。 文件详解 screenshots_&_soms.zip 文件格式:ZIP...
-
swint_Based_视觉模型训练数据集
2026年2月1日 30 16 9
数据集概述 本数据集用于训练能“看见”的语言模型,通过字符串表示像素化图像实现视觉理解。数据集仅包含一个文件,无目录结构和数据拆分,核心文件为JSON格式。 文件详解 文件名称:gallery.json 文件格式:JSON 字段映射介绍:文件内容为用于训练视觉语言模型的像素化图像字符串表示数据,具体字段信息未提供预览。 适用场景 视觉语言模型训练:...
-
UI_Components_Based_桌面环境UI组件语义描述标注数据集
2026年1月21日 30 170 51
数据集概述 本数据集包含桌面环境UI组件的语义描述标注信息,用于评估视觉语言模型(VLMs)提取UI元素语义描述的能力。数据涵盖100张截图中的559个手动标注UI元素,记录其交互事件、位置、类别等属性,支持UI交互分析与模型性能验证。 文件详解 screenshots_&_soms.zip 文件格式:ZIP...
-
思想动态图像_借助视觉语言模型提取查尔斯_S_皮尔士手稿中的视觉知识数据集
2025年12月19日 30 25 8
数据集概述 该数据集围绕“思想动态图像”主题,利用视觉语言模型从查尔斯·S·皮尔士的手稿中提取视觉知识,包含手稿图像文件、结果文件、评估文件、数据集文件及标注文件等多种类型,为相关研究提供数据支持。 文件详解 手稿图像文件:...
-
PQB_EQA_Based_单问题平衡具身问答基准测试完整数据
2025年12月19日 30 156 11
数据集概述 该数据集是一个用于验证具身问答(EQA)模型视觉数据利用能力的基准数据集。核心设计为每个问题与两个不同环境配对,产生不同答案,实现单问题层面的答案分布平衡,以此区分模型是基于环境感知回答还是依赖通用语言模型的猜测,为评估EQA模型的环境 grounding 能力提供依据。 文件详解 压缩文件组(.zip格式):...
-
人类概念加工多模态整合建模数据集
2025年12月16日 30 162 59
数据集概述 本数据集为论文《Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models》的补充材料,包含随机噪声图像压缩包及多实验条件下模型生成的表征差异矩阵JSON文件,用于支持人类概念加工多模态整合的建模研究。 文件详解...
-
视觉语言模型在GUI复用中的应用研究复现包
2025年12月11日 30 62 50
数据集概述 本数据集是论文《Exploiting Vision-Language Models in GUI Reuse》的复现包,包含六份文件,涵盖GUI图像相关的处理数据、复用任务说明、扩散模型结果及专家评估报告,为复现论文研究提供完整支持。 文件详解 数据文件(.xlsx格式,共3个): 1-Imgs-...
-
剥离电线数据集
2025年12月4日 30 54 35
数据集概述 该数据集包含四种不同直径的单根电线图像,按训练集和测试集分类,支持异常检测与视觉语言模型评估。测试集含正常、绞线脱落、绞线断裂三类标注,训练集含PatchCore模型训练用正常样本及视觉语言模型适配用三类样本,聚焦电线端部状态实验。 文件详解 文件名称:Insulated_wire_dataset.zip 文件格式:ZIP压缩包 内部结构:...
-
文化概念图像描述数据集
2025年4月19日 30 68 7
文化概念图像描述数据集 数据来源:互联网公开数据 标签:文化,图像描述,视觉语言模型,文化意识评分,全球文化,舞蹈,艺术符号,跨文化研究 数据概述: 本数据集包含1500张文化概念的图像,每张图像都经过人工标注,提供真实标签和文化意识评分(Cultural Awareness Score,简称CAS)。数据集分为三个主要类别: 1)...



