数据集概述
本数据集包含从YouTube频道“lovescript”、Quora及博客等来源收集的视频脚本,用于计算场景生成算法的输入分析,支持自动生成短视频序列。数据集包含脚本ID、收集日期、标题及文本四列核心信息,为视频生成创新研究提供基础数据。
文件详解
- 核心数据文件:
- Script Dataset for Computational Scene Generation.xlsx:Excel格式,包含脚本ID、收集日期、标题、脚本文本等核心字段
- Script Dataset for Computational Scene Generation-rt6gQh.xlsx:Excel格式,可能为补充或修订版脚本数据
- script dataset for computational scene generation.csv:CSV格式,核心字段示例:Id(脚本ID)、Title(脚本标题)、Content(脚本文本)
- 样本文件:
- Randomly_selected_10_loveletters.xlsx:Excel格式,包含10份随机选取的情书类脚本样本
- 分析结果文件:
- Results of sentiment and pragmatic.csv:CSV格式,包含情感与语用分析结果,字段示例:Title(标题)、Segments(文本分段)、TextBlob_Polarity(TextBlob极性值)、VADER_Compound(VADER复合得分)、Predicted_Emotion(预测情感)、locations(地点实体)、Persons(人物实体)
数据来源
YouTube频道“lovescript”、Quora、博客
适用场景
- 视频生成算法训练:作为计算场景生成模型的输入语料,开发自动短视频生成系统
- 情感与语用分析:基于脚本文本及标注结果,研究视频内容的情感倾向与语用特征
- 多模态内容创作:结合脚本数据与视觉生成技术,构建故事叙述、娱乐或教育类视频
- NLP文本处理研究:探索视频脚本的语义理解、实体识别等自然语言处理任务