TED演讲数据集含演讲稿-LIWC和MFT分析
数据来源:互联网公开数据
标签:TED演讲,公共演讲,语言分析,道德基础理论,数据可视化,文本挖掘,自然语言处理,心理语言学
数据概述:
本数据集是一个全面收录TED官方活动演讲的集合,数据来源于TED.com网站。数据集不仅包含演讲的基本信息(如唯一标识符、演讲者姓名、标题、视频链接、描述等),还提供了演讲的完整英文文本、录制时间、事件详情、演讲时长、发布日期以及主题标签。此外,数据集还包含了每个演讲的观看次数(截至2017年6月13日)、Linguistic Inquiry and Word Count(LIWC)软件生成的语言模式分析结果,以及基于Moral Foundations Theory(MFT)分析得到的道德词汇比例。
数据用途概述:
该数据集适用于多种研究和应用场景:
1. 演讲影响力分析:通过观看次数数据,研究人员可以分析哪些演讲最受欢迎,进而探讨主题和演讲风格对观众的影响。
2. 语言模式研究:利用LIWC分析结果,可以研究演讲中的语言使用模式,例如积极情感、认知过程或社会词汇的使用频率,从而深入了解有效沟通策略。
3. 话题学习计划:借助演讲的标签信息,用户可以根据特定主题定制个性化学习计划,通过TED演讲探索各类专业知识。
4. 心理语言学研究:结合LIWC和MFT分析,研究人员可以深入研究演讲中的语言特征与道德观念之间的关系。
5. 数据可视化与探索:数据集提供了丰富的元数据和分析结果,非常适合用于数据可视化项目,帮助用户更好地理解TED演讲的内容和趋势。
数据集关键字段说明:
- Unique ID:每个演讲的唯一标识符。
- URL:访问TED演讲视频的链接。
- Transcript URL:获取演讲完整英文文本的链接。
- Speaker Name:演讲者的姓名。
- Headline:演讲标题,简要说明演讲内容。
- Description:对演讲内容的详细描述。
- Date Filmed (Month-Year):演讲录制的时间(月-年)。
- Event Details:演讲的事件详情,包括地点和活动名称。
- Duration (MM:SS):演讲时长,以分钟和秒为单位。
- Date Published:演讲在TED.com上发布的日期。
- Topic Tags:演讲的主题标签,用于分类和检索。
- Views:截至2017年6月13日的观看次数。
- LIWC Variables:基于LIWC分析的词汇使用比例,涵盖多个语言类别。
- MFT Variables:基于MFT分析的道德词汇比例,用于评估演讲内容中的道德观念。
数据特征:
- 数据集覆盖了从TED网站启动到2017年6月13日期间的全部官方活动演讲。
- 数据包含超过111个字段,提供了丰富的元数据和分析结果。
- LIWC分析提供了演讲中词汇使用的详细比例,帮助研究语言模式。
- MFT分析提供了道德词汇的使用比例,适用于道德观念研究。
适用场景:
1. 学术研究:适用于语言学、心理学、传播学等领域的研究,特别是在语言模式、道德观念和公众演讲分析方面。
2. 商业应用:可用于分析公众演讲的成功因素,帮助企业提升演讲技巧和内容策划。
3. 教育用途:可用于创建基于特定主题的学习计划,帮助学习者通过TED演讲探索不同领域的专业知识。
4. 数据可视化:提供丰富的元数据和分析结果,适合用于数据可视化项目,帮助用户直观理解TED演讲的内容和趋势。
注意事项:
- 数据集的使用需遵守相关版权许可,用户需在研究中注明数据来源及原始作者。
- 数据集中的LIWC和MFT分析结果为自动计算,可能存在一定的误差,使用时需结合实际语境进行验证。
通过本数据集,研究人员和用户可以全面探索TED演讲的语言特征、主题趋势和影响力,为不同领域的研究和应用提供有力支持。