数据集 - 海数据

Reddit政治用户多主题互动数据集2007_2022

2025年12月18日 30 76 26

数据集概述本数据集包含2007-2022年Reddit政治子版块的用户互动数据，涵盖每周用户网络及消息数据库。网络中节点为用户，边为互动关系；消息库含主题、毒性、立场等属性，为研究政治话题互动提供支持。文件详解文件名称: message_data.zip 文件格式: ZIP压缩包内容说明:...

ZIP

退税案例解释质量调查数据集

2025年12月15日 30 60 35

数据集概述本数据集包含针对退税申请场景的解释质量感知（保真度与互操作性）调查相关文件，涵盖用户调查数据、实验设计文档、大语言模型（LLM）生成内容及评估材料，为研究退税场景下解释质量的感知与评估提供多维度数据支持。文件详解调查数据文件： data-survey.csv：CSV格式调查数据集，含128名用户对2个查询案例的评分 data-...

ZIP

GPT4Kids研究数据_用于德语儿童词频估计的大语言模型生成语言语料库

2025年12月8日 30 189 79

数据集概述本数据集为"大型语言模型能否生成有用的语言语料库？以德国年轻读者词频效应为例"研究提供支持，包含三个实验数据：GPT-3.5实验、温度与受众变异分析、开源大语言模型评估。文件详解文件名称: exp123.zip 文件格式: ZIP (.zip) 文件内容: 压缩包内包含三个实验的全部数据，具体字段与结构需解压后查看原始文件内容适用场景...

ZIP

Llama1模型生成第一步数据集Generation1Step1Dataset-thaonguen

2025年4月25日 30 29 17

Llama1模型生成第一步数据集Generation1Step1Dataset-thaonguen 数据来源：互联网公开数据标签：自然语言处理，数据集，文本生成，机器学习，Llama，Transformer，语言模型，预训练数据概述：该数据集包含用于 Llama 1 模型第一步训练的数据，主要用于构建基础的语言模型。主要特征如下：...