-
OpenLLMText_多源文本数据基于大语言模型文本分析完整数据
2025年12月12日 30 16 1
数据集概述 该数据集包含约三十万条文本条目,来源于人类及ChatGPT、PaLM、LLaMA、GPT2-XL四个大语言模型。其中人类文本取自2019年前Reddit用户生成内容,其余模型文本为对人类文本的逐段改写或直接适配,覆盖不同生成式模型的文本特征。 文件详解...
-
上下文代码检索用于提交信息生成初步研究复现包
2025年12月11日 30 122 77
数据集概述 本数据集为论文《Contextual Code Retrieval for Commit Message Generation: A Preliminary Study》的复现包,包含ApacheCM数据集、实验结果、人工评估的详细说明与结果,以及C3Gen的代码和脚本,支持研究复现与验证。 文件详解 数据集包含一个压缩文件,具体说明如下:...



