SPIKE_QA_Based_英文多主题问答微调数据集

数据集概述

本数据集为SPIKE-QA,是由GPT4o-small模型生成、经Python脚本整合的英文问答数据集,包含50,236对零样本问答样本。主题覆盖基础科学(物理、化学、数学)、复杂生成问题及日常对话,以CSV格式存储,便于模型微调与评估。

文件详解

  • 文件名称:SPIKE-QA.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含完整数据集文件SPIKE-QA.csv,文件含两个核心字段——"Question"(问题)与"Answer"(答案),对应独立的问答样本对。

数据来源

ORCID:0009-0002-1449-2803的作者,替代DOI为10.34740/kaggle/dsv/10346351

适用场景

  • 小语言模型(SLM)参数微调: 利用多样化问答样本优化模型的问答生成能力。
  • 模型评估: 基于样本的多样性与长度变化,测试模型的泛化与响应能力。
  • 自然语言处理入门实践: 以易获取的CSV格式,支持初学者开展问答任务练习。
  • 数据集扩展研究: 通过 paraphrasing 等方式拓展数据集,提升其资源利用价值。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 6.55 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。