JovemNerdNerdcast节目文字转录数据集-2024年3月18日-leonardocosta1206

JovemNerdNerdcast节目文字转录数据集-2024年3月18日-leonardocosta1206 数据来源:互联网公开数据 标签:Jovem Nerd, Nerdcast, 文字转录, 节目内容, 语言处理, 机器学习, 数据分析

数据概述: 本数据集收录了Jovem Nerd网站Nerdcast节目直至2024年3月18日所有定期发布的节目文字转录。数据集基于Whisper-small模型对音频内容进行自动转录,每条记录对应一个特定的Nerdcast节目,包含以下字段:

  • 标题:节目名称
  • 摘要:节目简要描述
  • URL:音频文件链接
  • 文字转录:节目完整文字内容
  • 文本块:文字内容分割的多个文本块,便于处理和分析
  • 图像:节目相关图片链接
  • 持续时间:音频时长
  • 原文链接:节目原文链接

数据用途概述: 该数据集适用于多种应用场景,包括节目内容分析、主题研究、自然语言处理模型开发等。研究人员可以利用此数据集探索Nerdcast内容的各个方面,并使用文本分析技术提取有价值的信息。教育机构和语言技术研究者也可以借助该数据集进行语言模型训练和评估,促进葡萄牙语处理技术的发展。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 19:40 (UTC)
创建于 五月 31, 2025, 19:40 (UTC)