LLM一致性测试组合测试用例数据集

数据集概述

该数据集是用于大语言模型(LLM)一致性测试的组合测试用例集合,包含问题、同义词列表、覆盖数组、测试运行记录、模型输出及性能评估结果,支持分析Starling-LM、Llama系列等6个模型的响应一致性与准确性。

文件详解

  • 核心问题文件:
  • public_questions.jsonl:JSONL格式,含27个问题及正确答案标签,由人工引导的ChatGPT会话构建
  • 测试运行记录:
  • test_runs.csv:CSV格式,含测试ID、原句文本、日期、正确答案、模型信息等,每条原句按模型重复记录
  • 同义词文件:
  • synonyms-.txt:TXT格式,按测试ID存储每个token的同义词列表(每行一个JSON列表,最多3个同义词)
  • 覆盖数组文件:
  • ca-.csv:CSV格式,按测试ID生成的强度2覆盖数组,列对应同义词文件行,行对应测试用例
  • 查询结果文件:
  • queries.csv:CSV格式,含提交给LLM的完整提示、模型响应及布尔解释结果,通过sentence_id关联test_runs.csv
  • 可视化结果文件:
  • llm-responses-parsed.png:PNG格式,展示各模型解析后的布尔响应分布
  • precision.png:PNG格式,可视化各模型的精确率
  • recall.png:PNG格式,展示各模型的召回率
  • f1.png:PNG格式,呈现各模型的F1分数
  • consistency.png:PNG格式,分析各测试运行中模型响应的一致性

数据来源

KomMKonLLM项目(https://github.com/KomMKonLLM/KomMKonLLM

适用场景

  • LLM一致性评估:分析模型对同义词替换后的查询响应是否一致
  • 模型性能对比:比较不同LLM在精确率、召回率、F1分数等指标上的表现
  • 测试用例生成研究:基于覆盖数组方法构建组合测试用例的实践参考
  • 自然语言处理鲁棒性分析:探究模型对文本变异的鲁棒性水平
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.99 MiB
最后更新 2025年12月18日
创建于 2025年12月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。