LLM一致性测试组合测试用例数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

LLM一致性测试组合测试用例数据集

数据集概述

该数据集是用于大语言模型（LLM）一致性测试的组合测试用例集合，包含问题、同义词列表、覆盖数组、测试运行记录、模型输出及性能评估结果，支持分析Starling-LM、Llama系列等6个模型的响应一致性与准确性。

文件详解

核心问题文件：
public_questions.jsonl：JSONL格式，含27个问题及正确答案标签，由人工引导的ChatGPT会话构建
测试运行记录：
test_runs.csv：CSV格式，含测试ID、原句文本、日期、正确答案、模型信息等，每条原句按模型重复记录
同义词文件：
synonyms-.txt：TXT格式，按测试ID存储每个token的同义词列表（每行一个JSON列表，最多3个同义词）
覆盖数组文件：
ca-.csv：CSV格式，按测试ID生成的强度2覆盖数组，列对应同义词文件行，行对应测试用例
查询结果文件：
queries.csv：CSV格式，含提交给LLM的完整提示、模型响应及布尔解释结果，通过sentence_id关联test_runs.csv
可视化结果文件：
llm-responses-parsed.png：PNG格式，展示各模型解析后的布尔响应分布
precision.png：PNG格式，可视化各模型的精确率
recall.png：PNG格式，展示各模型的召回率
f1.png：PNG格式，呈现各模型的F1分数
consistency.png：PNG格式，分析各测试运行中模型响应的一致性

数据来源

KomMKonLLM项目（https://github.com/KomMKonLLM/KomMKonLLM）

适用场景

LLM一致性评估：分析模型对同义词替换后的查询响应是否一致
模型性能对比：比较不同LLM在精确率、召回率、F1分数等指标上的表现
测试用例生成研究：基于覆盖数组方法构建组合测试用例的实践参考
自然语言处理鲁棒性分析：探究模型对文本变异的鲁棒性水平

数据与资源

15209547.zipZIP
1.99 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	1.99 MiB
最后更新	2025年12月18日
创建于	2025年12月18日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？