维基百科页面LLM科学考试训练数据集

维基百科页面LLM科学考试训练数据集 数据来源:互联网公开数据
标签:维基百科,LLM,科学考试,训练数据,物理概念,文本提取,教育研究

数据概述:
本数据集由维基百科页面的文本提取组成,主要用于生成LLM(大规模语言模型)科学考试的训练数据。数据集涵盖了维基百科页面的各个部分,包括但不限于标题、摘要、正文段落等,并特别包含了来自“物理概念”类别的相关页面内容。每个页面均按其标题进行分类,并附带“摘要”部分,以确保数据的完整性和结构化。

数据用途概述:
该数据集适用于LLM模型的训练与优化,特别是在科学考试相关任务中的表现提升。研究人员可利用此数据集进行模型训练,以提高模型在科学知识问答、概念理解、逻辑推理等方面的能力。此外,数据集也可用于教育研究,帮助分析维基百科内容的结构与表达方式,为科学教育提供数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.66 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。