YouTube视频字幕数据集-印地文与英文-2023

YouTube视频字幕数据集-印地文与英文-2023 数据来源:互联网公开数据 标签:YouTube,字幕,印地文,英文,视频数据,机器学习,语言模型,分类,摘要,翻译

数据概述: 本数据集包含了85个知名YouTube频道的168,039条视频的印地文和英文字幕。该数据集主要用于构建和优化印地文语言模型(LLMs)。数据涵盖了信息、娱乐、政治、喜剧、新闻等多个类别的频道内容。

数据集内容包括: - 视频的印地文和英文字幕 - 视频元数据,如时长、评论数、点赞数、发布日期等

数据来源于YouTube,并使用了以下Python包生成: - youtube-transcript-api - google-api-python-client

数据用途概述: 该数据集适用于多种应用场景,包括但不限于: - 构建和优化印地文语言模型 - 印地文语言模型的微调,适用于分类、摘要、翻译等任务 - 教育和研究用途,帮助学习者和研究者理解印地文语言和文本数据处理方法 - 提供高质量的双语数据资源,促进印地文和英文之间的翻译和理解

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 751.3 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。