数据集

含参数单比特错误的OPUS_MT与T5模型生成文本数据集

数据集概述

该数据集包含T5和OPUS-MT两种大语言模型在参数含单比特错误与无错误情况下的生成文本。T5基于CNN Daily Mail数据集完成摘要任务，OPUS-MT基于IWSLT2017数据集完成汉英翻译任务，覆盖FP32和FP16两种量化版本模型的输出对比。

文件详解

该数据集包含四个模型版本目录及对应文件，具体说明如下： - 目录结构： - t5_fp32：FP32量化版本的T5模型文件 - t5_fp16：FP16量化版本的T5模型文件 - opus_fp32：FP32量化版本的OPUS-MT模型文件 - opus_fp16：FP16量化版本的OPUS-MT模型文件 - 通用文件类型（各目录下均包含）： - {cnn/iwslt2017}_input_text.txt：输入文本文件，其中cnn对应T5的摘要输入文本，iwslt2017对应OPUS-MT的汉英翻译输入文本，每个数据集含number_input_texts条数据 - {cnn/iwslt2017}_output_reference.txt：参考输出文件，对应T5（CNN）和OPUS-MT（IWSLT2017）的预期结果，每个数据集含number_input_texts条数据 - {cnn/iwslt2017}_output_predict_fault_free.txt：无单比特错误的预测输出文件，每个数据集含number_input_texts条数据 - {cnn/iwslt2017}_output_predict_single_fi_bit_100times.txt：含100种不同单比特错误的预测输出文件，每个数据集含100*number_input_texts条数据

适用场景

大语言模型鲁棒性研究：分析参数单比特错误对T5摘要、OPUS-MT翻译任务输出质量的影响
量化模型容错性评估：对比FP32与FP16量化版本模型在单比特错误下的性能差异
错误注入实验验证：为并发语言错误检测（CLED）等技术提供实验数据支撑
自然语言处理模型可靠性分析：探究硬件级错误在不同NLP任务中的传播规律

数据与资源

15512473.zipZIP
91.91 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	91.91 MiB
最后更新	2025年12月15日
创建于	2025年12月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。