NPR媒体对话转录数据集

NPR媒体对话转录数据集 数据来源:互联网公开数据
标签:媒体对话,转录文本,自然语言处理,新闻广播,话语模式,知识grounding,对话生成

数据概述:
本数据集包含140,000多个NPR(美国国家公共广播电台)广播节目的转录文本,覆盖了20年的节目内容,总计约10,000小时的音频。数据集分为两部分:两说话人子集(约20,000次对话/节目)和完整数据集(约140,000次对话/节目)。每个转录文件包含节目名称、日期、说话人信息及对话内容。对话由多个“轮次”组成,轮次可能由同一说话人或不同说话人连续发言,每个轮次包含一个或多个“ utterance”(句子)。

数据用途概述:
该数据集适用于多种研究和应用领域,包括但不限于:
1. 对话生成与理解:研究媒体对话中的话语模式和知识 grounding。
2. 问答系统:提取对话中的关键信息,构建智能问答系统。
3. 媒体内容分析:研究媒体对话的风格、主题分布及时间变化趋势。
4. 自然语言处理:用于训练和评估对话模型、语言模型及文本生成技术。
5. 语言学研究:分析对话结构、语义关系及多轮对话的逻辑连贯性。
6. 媒体内容优化:为广播节目提供内容分析和改进建议。

此外,数据集还可用于学术研究和教育培训,帮助研究人员和学习者深入理解媒体对话的复杂性及其在现实场景中的应用价值。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 291.74 MiB
最后更新 2025年5月8日
创建于 2025年5月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。