南方公园剧本对话数据集-2001至2023年-mustafacicek
数据来源:互联网公开数据
标签:南方公园,剧本,对话,自然语言处理,NLP,数据可视化,推荐系统,电视剧分析
数据概述:
本数据集包含南方公园(South Park)自2001年至2023年的剧本对话记录,涵盖超过300集,超过95000行对话。数据集分为两个文件:
- SouthPark_Episodes.csv:包含集数名称、播出日期、季度、集数编号及集数描述等基本信息。
- SouthPark_Lines.csv:包含集数名称、角色名称及其对话内容。
数据来源于南方公园维基(https://southpark.fandom.com/wiki/List_of_Episodes),并通过Kaggle(https://www.kaggle.com/mustafacicek/pandas-read-html-south-park-lines-collection)进行爬取整理。
数据用途概述:
该数据集适用于多种自然语言处理任务、数据可视化分析及推荐系统构建等场景。研究者和开发者可以利用此数据进行文本分析、情感分析、角色对话模式识别等研究;教育者可以将数据用于教学示例;内容创作者可基于数据进行剧本创作灵感的启发;观众也可以通过数据探索自己喜欢的角色台词及剧情发展。