数据集概述
该数据集是用于大语言模型(LLM)一致性测试的组合测试用例集合,包含问题、同义词列表、覆盖数组、测试运行记录、模型输出及性能评估结果,支持分析Starling-LM、Llama系列等6个模型的响应一致性与准确性。
文件详解
- 核心问题文件:
- public_questions.jsonl:JSONL格式,含27个问题及正确答案标签,由人工引导的ChatGPT会话构建
- 测试运行记录:
- test_runs.csv:CSV格式,含测试ID、原句文本、日期、正确答案、模型信息等,每条原句按模型重复记录
- 同义词文件:
- synonyms-.txt:TXT格式,按测试ID存储每个token的同义词列表(每行一个JSON列表,最多3个同义词)
- 覆盖数组文件:
- ca-.csv:CSV格式,按测试ID生成的强度2覆盖数组,列对应同义词文件行,行对应测试用例
- 查询结果文件:
- queries.csv:CSV格式,含提交给LLM的完整提示、模型响应及布尔解释结果,通过sentence_id关联test_runs.csv
- 可视化结果文件:
- llm-responses-parsed.png:PNG格式,展示各模型解析后的布尔响应分布
- precision.png:PNG格式,可视化各模型的精确率
- recall.png:PNG格式,展示各模型的召回率
- f1.png:PNG格式,呈现各模型的F1分数
- consistency.png:PNG格式,分析各测试运行中模型响应的一致性
数据来源
KomMKonLLM项目(https://github.com/KomMKonLLM/KomMKonLLM)
适用场景
- LLM一致性评估:分析模型对同义词替换后的查询响应是否一致
- 模型性能对比:比较不同LLM在精确率、召回率、F1分数等指标上的表现
- 测试用例生成研究:基于覆盖数组方法构建组合测试用例的实践参考
- 自然语言处理鲁棒性分析:探究模型对文本变异的鲁棒性水平