TikTok_Pregnancy_Vape_社交平台内容筛查数据采集脚本集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

TikTok_Pregnancy_Vape_社交平台内容筛查数据采集脚本集

数据集概述

本数据集存储了用于从TikTok平台采集数据的脚本集合，包含视频、元数据及视觉洞察的采集流程。数据采集分为元数据提取、去重、视频下载、转录生成、目标与文本检测五个步骤，需按顺序运行对应脚本，同时需配置Python环境、相关库及Oracle Cloud Vision API等第三方服务。

文件详解

文件名称：GPT-Vape-and-Pregnancy-Project-main.zip
文件格式：ZIP
字段映射介绍：压缩包内包含数据采集所需的全部脚本，核心脚本包括：
combineHashtagMetadata.py：用于合并多标签元数据并基于唯一视频ID去重
pyktokVideoCollection.py：调用pyktok库根据视频ID下载TikTok视频
whisperTranscriptGenerator：使用OpenAI Whisper生成视频文本转录
framesGeneration.py：从视频中按固定间隔提取图像帧
oracleFramefeatureExtractor.py：调用Oracle Cloud Vision API检测帧中对象、文本等视觉元素

适用场景

社交媒体内容筛查研究：利用机器学习方法对TikTok孕产与电子烟相关内容进行主题检测与合规性分析
公共卫生监测：通过分析TikTok平台相关视频，监测电子烟在孕产群体中的传播与认知情况
多模态数据采集技术验证：测试从社交平台批量采集元数据、视频、文本、视觉特征的技术流程可行性
人工智能模型应用：验证Whisper转录、Oracle Cloud Vision视觉检测在社交媒体视频分析中的效果

数据与资源

14285107.zipZIP
52.08 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	52.08 MiB
最后更新	2026年1月21日
创建于	2026年1月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？