数据集概述
本数据集是一个用于Android设备跟踪数据标注的完整工具集,包含数据采集工具包和数据标注脚本。数据采集工具包可用于生成研究数据,而标注脚本则利用预训练的命名实体识别模型对Android设备的文本跟踪数据(如logcat日志)进行用户动作标注。数据集共包含49个文件,涵盖工具脚本、训练模型、样本数据等多个组件。
文件详解
- 数据采集工具包(DataAcquisitionToolkit)
- 文件格式: BAT、PY、TXT、PNG、DB等
- 主要文件: RTCA.py(数据采集主程序)、preimage.bat/postimage.bat(环境设置脚本)、Sample Output目录包含logcat.txt、dumpsys.txt等样本输出文件
- 数据标注组件(DataLabelling)
- 文件格式: PY、JSON、BIN、OWL、XLSX等
- 主要文件: labeling.py(标注主脚本)、trainer.py(模型训练脚本)、Model目录包含NER模型配置文件(cfg、moves、model等)、词汇表文件(vocab)
- 训练数据样本
- 文件格式: TXT、XML、XLSX
- 主要文件: Trainer/Data目录下的telegram.xml、logcat.txt、master.xlsx等训练样本数据
适用场景
- Android应用行为分析: 通过标注logcat等系统跟踪数据,识别和分析用户在使用Android应用时的具体操作行为
- 移动设备用户交互研究: 利用命名实体识别技术从设备日志中提取用户动作序列,用于用户体验研究和交互模式分析
- 移动安全监测: 通过对系统跟踪数据的自动化标注,监测异常用户行为或潜在安全威胁
- 命名实体识别模型训练: 使用提供的训练脚本和样本数据,针对特定场景训练或优化NER模型
- 移动应用开发调试: 为开发者提供标准化的数据采集和标注工具,辅助应用性能优化和问题排查