基于大语言模型的生命周期清单与环境影响数据检索框架数据集

数据集概述

本数据集围绕Sustain-LLaMA框架构建,该框架通过分类、预训练、问答三阶段微调大语言模型,实现从科学文献中自动化检索生命周期清单(LCI)和环境影响数据,提升化工与塑料行业向净零排放转型的数据获取效率。

文件详解

该数据集按研究主题和任务阶段分类,包含以下核心文件类型: - 框架与可视化文件:FRAMEWORK.png(框架示意图)、Making_box_plot.ipynb(箱线图绘制代码) - 甲醇主题任务文件: - 分类任务:Finetuning_Classification.ipynb(分类微调代码)、Data_class_final.gzip(分类数据)、confusion_eval_methanol.pdf(混淆矩阵图) - 数据提取与标注:Meta_analysis.ipynb(元分析代码)、Abstracts Fulltext Download.ipynb(文献下载代码)、data_keywords_0.csv(关键词数据)、greenhouse gases in methanol synthesis.gzip(温室气体数据) - 预训练任务:pretraining_run.ipynb(预训练代码)、merge_peft_adapter.py(适配器合并代码)、learning_pretraining_methanol.pdf(预训练学习曲线) - 问答任务:Finetuning QnA.ipynb(问答微调代码)、Q&A model_testing.ipynb(模型测试代码)、qna_lca.gzip(问答数据集) - 塑料包装主题任务文件: - 分类任务:Classification_.ipynb(分类代码)、class_340_data.gzip(分类数据)、confusion_train_plastic.pdf(训练混淆矩阵) - 数据提取:Meta_analysis.ipynb(元分析代码)、abstracts_0.gzip(文献摘要数据)、wordcloud_keywords.pdf(关键词词云) - 预训练任务:pretraining_run.ipynb(预训练代码)、merge_peft_adapter.py(适配器合并代码) - 问答任务:Fine_tune_QnA.ipynb(问答微调代码)、metric_calculation.ipynb(指标计算代码)

适用场景

  • 生命周期评估(LCA)研究:自动化获取文献中的LCI数据与环境影响参数
  • 大语言模型应用:探索领域适配型LLM在环境数据检索中的微调方法
  • 化工行业减排:支撑甲醇、塑料包装等领域的净零排放路径分析
  • 文献计量分析:研究环境科学领域文献的关键词分布与国家研究趋势
  • 机器学习方法论:验证多阶段LLM框架在专业数据检索任务中的有效性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 88.13 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。