数据集 - 海数据

Vicuna_Based_生物与天然产物端到端关系抽取合成数据集

2026年2月9日 30 128 124

数据集概述本数据集是用于生物与天然产物之间关系端到端抽取的合成训练/验证数据，基于Vicuna-13b-v1.5模型生成，源自LLaMA 2。数据依托GME-sampler提取的生物界前1000篇LOTUS文献参考构建，包含训练集10405项、验证集547项，遵循相关文章所述协议生成。文件详解训练集文件文件名称：train.json...

ZIP

OpenLLMText_多源文本数据基于大语言模型文本分析完整数据

2025年12月12日 30 58 54

数据集概述该数据集包含约三十万条文本条目，来源于人类及ChatGPT、PaLM、LLaMA、GPT2-XL四个大语言模型。其中人类文本取自2019年前Reddit用户生成内容，其余模型文本为对人类文本的逐段改写或直接适配，覆盖不同生成式模型的文本特征。文件详解...

ZIP

LLM软件架构知识比较分析复现包

2025年12月10日 30 98 45

数据集概述本数据集是论文《LLMs for Software Architecture Knowledge: A Comparative Analysis among Seven LLMs》的复现包，包含用于复现研究的相关材料，支持验证七种LLM在软件架构知识查询任务中的性能差异。文件详解文件名称：OnlineMaterial.zip...