数据集概述
本数据集存储了用于从TikTok平台采集数据的脚本集合,包含视频、元数据及视觉洞察的采集流程。数据采集分为元数据提取、去重、视频下载、转录生成、目标与文本检测五个步骤,需按顺序运行对应脚本,同时需配置Python环境、相关库及Oracle Cloud Vision API等第三方服务。
文件详解
- 文件名称:GPT-Vape-and-Pregnancy-Project-main.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含数据采集所需的全部脚本,核心脚本包括:
- combineHashtagMetadata.py:用于合并多标签元数据并基于唯一视频ID去重
- pyktokVideoCollection.py:调用pyktok库根据视频ID下载TikTok视频
- whisperTranscriptGenerator:使用OpenAI Whisper生成视频文本转录
- framesGeneration.py:从视频中按固定间隔提取图像帧
- oracleFramefeatureExtractor.py:调用Oracle Cloud Vision API检测帧中对象、文本等视觉元素
适用场景
- 社交媒体内容筛查研究:利用机器学习方法对TikTok孕产与电子烟相关内容进行主题检测与合规性分析
- 公共卫生监测:通过分析TikTok平台相关视频,监测电子烟在孕产群体中的传播与认知情况
- 多模态数据采集技术验证:测试从社交平台批量采集元数据、视频、文本、视觉特征的技术流程可行性
- 人工智能模型应用:验证Whisper转录、Oracle Cloud Vision视觉检测在社交媒体视频分析中的效果