LLM20评估游戏数据集

LLM20评估游戏数据集 数据来源:互联网公开数据
标签:LLM, 评估, 游戏数据, 大语言模型, 人工智能, 评估框架, 机器学习
数据概述:
本数据集基于LLM20评估阶段的数据,包含从评估过程中收集的游戏记录及其相关元数据。数据集分为三个主要部分:
1. llm20-eval-episodes.csv:记录评估过程中的游戏会话信息,包含创建时间、结束时间及游戏类型(如验证游戏和标准游戏)。
2. llm20-eval-games.csv:提供游戏的详细回放数据,并增强包含答题者和猜题者的提交ID,便于快速关联。
3. llm20-eval-scoring.csv:记录每局游戏的评分细节,包括奖励值(如平局、失败、胜利)及游戏状态(如正常或错误状态)。
数据用途概述:
该数据集适用于评估和分析大语言模型在特定任务中的性能表现。研究人员可利用此数据集研究模型的策略优化、评估框架的改进以及模型在不同场景下的适应性。此外,数据集还可用于比较不同模型的性能差异,支持大语言模型的开发与优化工作。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 82.14 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。