数据集概述
该数据集包含T5和OPUS-MT两种大语言模型在参数含单比特错误与无错误情况下的生成文本。T5基于CNN Daily Mail数据集完成摘要任务,OPUS-MT基于IWSLT2017数据集完成汉英翻译任务,覆盖FP32和FP16两种量化版本模型的输出对比。
文件详解
该数据集包含四个模型版本目录及对应文件,具体说明如下:
- 目录结构:
- t5_fp32:FP32量化版本的T5模型文件
- t5_fp16:FP16量化版本的T5模型文件
- opus_fp32:FP32量化版本的OPUS-MT模型文件
- opus_fp16:FP16量化版本的OPUS-MT模型文件
- 通用文件类型(各目录下均包含):
- {cnn/iwslt2017}_input_text.txt:输入文本文件,其中cnn对应T5的摘要输入文本,iwslt2017对应OPUS-MT的汉英翻译输入文本,每个数据集含number_input_texts条数据
- {cnn/iwslt2017}_output_reference.txt:参考输出文件,对应T5(CNN)和OPUS-MT(IWSLT2017)的预期结果,每个数据集含number_input_texts条数据
- {cnn/iwslt2017}_output_predict_fault_free.txt:无单比特错误的预测输出文件,每个数据集含number_input_texts条数据
- {cnn/iwslt2017}_output_predict_single_fi_bit_100times.txt:含100种不同单比特错误的预测输出文件,每个数据集含100*number_input_texts条数据
适用场景
- 大语言模型鲁棒性研究:分析参数单比特错误对T5摘要、OPUS-MT翻译任务输出质量的影响
- 量化模型容错性评估:对比FP32与FP16量化版本模型在单比特错误下的性能差异
- 错误注入实验验证:为并发语言错误检测(CLED)等技术提供实验数据支撑
- 自然语言处理模型可靠性分析:探究硬件级错误在不同NLP任务中的传播规律