用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。

数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。 这些文件被用作数据集的主要来源。 2.半结构化数据 通过提取和构造书籍内容创建的 JSON 文件。 每个文件都遵循一致的模式: class_level:类别级别(例如 3、4、...、10)。 chapter_number:书中的章节编号。 chapter_title:章节标题。 主题:章节的子部分及其相应的描述。 key_points:总结本章的要点。 qa_pairs:用于测试理解能力的问答对。 exhausted_narration:每个章节的详细解释。 旁白:概括章节内容。 这些中间数据确保了下游处理的清晰度和灵活性。

packageimg

数据与资源

附加信息

字段
数据集大小 318.52 MiB
最后更新 2025年2月13日
创建于 2025年2月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。