-
ClimaQA_SLO_斯洛文尼亚气候领域问答基准数据
2026年1月30日 30 100 68
数据集概述 本数据集为斯洛文尼亚气候问答基准(ClimaQA_SLO),用于检验大语言模型在斯洛文尼亚环境相关领域(如气候变化、能源、林业)的事实核查能力。数据集包含斯洛文尼亚语的气候知识问答内容,支持评估模型的气候领域专业知识准确性。 文件详解 文件名称:ClimaQA_SLO.xlsx 文件格式:XLSX...
-
AeroEngQA_Benchmark_航空工程飞机设计LLM评估基准数据集
2026年1月20日 30 180 95
数据集概述 本数据集是低体量、高质量的飞机设计问答(QA)基准数据集,用于支持大语言模型(LLMs)的定性评估。涵盖单跳可回答、单跳不可回答、多跳可回答、多跳不可回答四类问答场景,通过结构化文件提供航空工程领域的专业问答数据,为LLM在飞机设计任务中的性能评估提供标准基准。 文件详解 核心数据文件 文件名称:AeroEngQA_single-...
-
技术手册问答基准数据集2025_TechManualQA_350
2025年12月8日 30 55 0
数据集概述 该数据集为技术手册问答基准数据集,包含来自10类技术手册的350个验证问答对,覆盖通用事实、流程指导、不可回答三类问题类型,用于评估大语言模型处理技术文档的性能,数据经自动化过滤与人工验证,确保质量可靠。 文件详解 主数据集文件:...



