数据集概述
本数据集包含桌面环境UI组件的语义描述标注信息,用于评估视觉语言模型(VLMs)提取UI元素语义描述的能力。数据涵盖100张截图中的559个手动标注UI元素,记录其交互事件、位置、类别等属性,支持UI交互分析与模型性能验证。
文件详解
- screenshots_&_soms.zip
- 文件格式:ZIP
- 内容说明:包含100张UI交互截图及对应的屏幕对象模型(SOM),SOM记录了截图中UI组件的层级关系(从应用/屏幕到图标/文本,含容器、侧边栏等中间组件)
- semantic_labels.csv
- 文件格式:CSV
- 字段映射:
- Screenshot:交互事件对应的截图文件名
- EventType:用户输入类型(均为left_click)
- Coords:点击坐标,用于定位交互的UI元素
- GroundTruth:人工标注的UI元素语义描述(如share button)
- Depth:UI元素在SOM中的层级深度
- Class:UI元素的类别(如Button)
- Density:截图的UI元素密度分类(低/中/高)
数据来源
论文“Enriching Process-Related UI Logs via Screenshot-Based Activity Labeling Using Vision-Language Models”
适用场景
- UI交互语义分析:研究桌面环境中UI元素的功能描述与用户交互意图的对应关系
- 视觉语言模型评估:验证VLMs提取UI元素语义描述的准确性与鲁棒性
- UI设计优化:分析不同密度UI界面中元素的交互效率与用户认知负荷
- 人机交互研究:探索UI组件层级结构对用户操作行为的影响机制