TikTok_Pregnancy_Vape_社交平台内容筛查数据采集脚本集

数据集概述

本数据集存储了用于从TikTok平台采集数据的脚本集合,包含视频、元数据及视觉洞察的采集流程。数据采集分为元数据提取、去重、视频下载、转录生成、目标与文本检测五个步骤,需按顺序运行对应脚本,同时需配置Python环境、相关库及Oracle Cloud Vision API等第三方服务。

文件详解

  • 文件名称:GPT-Vape-and-Pregnancy-Project-main.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含数据采集所需的全部脚本,核心脚本包括:
  • combineHashtagMetadata.py:用于合并多标签元数据并基于唯一视频ID去重
  • pyktokVideoCollection.py:调用pyktok库根据视频ID下载TikTok视频
  • whisperTranscriptGenerator:使用OpenAI Whisper生成视频文本转录
  • framesGeneration.py:从视频中按固定间隔提取图像帧
  • oracleFramefeatureExtractor.py:调用Oracle Cloud Vision API检测帧中对象、文本等视觉元素

适用场景

  • 社交媒体内容筛查研究:利用机器学习方法对TikTok孕产与电子烟相关内容进行主题检测与合规性分析
  • 公共卫生监测:通过分析TikTok平台相关视频,监测电子烟在孕产群体中的传播与认知情况
  • 多模态数据采集技术验证:测试从社交平台批量采集元数据、视频、文本、视觉特征的技术流程可行性
  • 人工智能模型应用:验证Whisper转录、Oracle Cloud Vision视觉检测在社交媒体视频分析中的效果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 52.08 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。