数据集概述
本数据集是论文《From Source to Structure – Extracting Knowledge Graphs with LLMs》的补充材料,包含LLM生成与合成工作流的完整JSON日志。数据覆盖HPSS研究者和AI/ML工程师两个学科视角,记录了八模型并行生成评论及单模型合成元评论的过程,共含四个文件。
文件详解
- 反馈文件(Feedback.json)
- 文件名称:OpenRouter Chat - Engineer Feedback.json、OpenRouter Chat - HPSS Feedback.json
- 文件格式:JSON
- 字段映射介绍:包含八大型语言模型并行生成评论的原始聊天记录,含模型版本、提示词(系统/用户)、采样参数及未修改输出等元数据。
- 总结文件(Summary.json)
- 文件名称:OpenRouter Chat - Engineer Summary.json、OpenRouter Chat - HPSS Summary.json
- 文件格式:JSON
- 字段映射介绍:包含单LLM合成八模型响应得到的结构化元评论日志,含模型版本、提示词(系统/用户)、采样参数及未修改输出等元数据。
数据来源
论文《From Source to Structure – Extracting Knowledge Graphs with LLMs》(发表于Large Language Models for the History, Philosophy, and Sociology of Science: Reflections from a Field in Motion)
适用场景
- LLM知识图谱构建工作流研究:分析两阶段生成与合成流程的效果,优化LLM驱动的知识提取方法。
- 跨学科视角对比分析:对比HPSS研究者与AI/ML工程师视角下LLM生成内容的差异,探究学科背景对知识图谱构建的影响。
- LLM模型性能评估:基于八模型并行生成结果,评估不同LLM在知识评论生成任务中的表现。
- 元评论合成策略优化:研究单LLM合成多模型响应的方法,提升结构化元评论的质量与效率。