数据集

用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

该数据集经过精心设计，旨在微调 Gemma 2 语言模型，以生成印地语教育内容，专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建，由三个结构化组件组成，可实现有效的语言模型训练。

数据集组件 1. 图书数据包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。这些文件被用作数据集的主要来源。 2.半结构化数据通过提取和构造书籍内容创建的 JSON 文件。每个文件都遵循一致的模式： class_level：类别级别（例如 3、4、...、10）。 chapter_number：书中的章节编号。 chapter_title：章节标题。主题：章节的子部分及其相应的描述。 key_points：总结本章的要点。 qa_pairs：用于测试理解能力的问答对。 exhausted_narration：每个章节的详细解释。旁白：概括章节内容。这些中间数据确保了下游处理的清晰度和灵活性。

数据与资源

用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集.zipzip
318.52 MiB

下载

附加信息

字段	值
数据集大小	318.52 MiB
最后更新	2025年2月13日
创建于	2025年2月13日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。