-
Vicuna_Based_生物与天然产物端到端关系抽取合成数据集
2026年2月9日 30 128 124
数据集概述 本数据集是用于生物与天然产物之间关系端到端抽取的合成训练/验证数据,基于Vicuna-13b-v1.5模型生成,源自LLaMA 2。数据依托GME-sampler提取的生物界前1000篇LOTUS文献参考构建,包含训练集10405项、验证集547项,遵循相关文章所述协议生成。 文件详解 训练集文件 文件名称:train.json...
-
OpenLLMText_多源文本数据基于大语言模型文本分析完整数据
2025年12月12日 30 58 54
数据集概述 该数据集包含约三十万条文本条目,来源于人类及ChatGPT、PaLM、LLaMA、GPT2-XL四个大语言模型。其中人类文本取自2019年前Reddit用户生成内容,其余模型文本为对人类文本的逐段改写或直接适配,覆盖不同生成式模型的文本特征。 文件详解...
-
LLM软件架构知识比较分析复现包
2025年12月10日 30 98 45
数据集概述 本数据集是论文《LLMs for Software Architecture Knowledge: A Comparative Analysis among Seven LLMs》的复现包,包含用于复现研究的相关材料,支持验证七种LLM在软件架构知识查询任务中的性能差异。 文件详解 文件名称:OnlineMaterial.zip...
-
大规模语言模型开源项目LMSYS的快速版LLaMA数据集LMSYSOpen-sourceFastLLaMADataset-rushali98
2025年4月23日 30 98 33
大规模语言模型开源项目LMSYS的快速版LLaMA数据集LMSYSOpen-sourceFastLLaMADataset-rushali98 数据来源:互联网公开数据 标签:自然语言处理,大型语言模型,数据集,LLaMA,开源,文本生成,机器学习,预训练 数据概述:...



