数据集

基于大语言模型的生命周期清单与环境影响数据检索框架数据集

数据集概述

本数据集围绕Sustain-LLaMA框架构建，该框架通过分类、预训练、问答三阶段微调大语言模型，实现从科学文献中自动化检索生命周期清单（LCI）和环境影响数据，提升化工与塑料行业向净零排放转型的数据获取效率。

文件详解

该数据集按研究主题和任务阶段分类，包含以下核心文件类型： - 框架与可视化文件：FRAMEWORK.png（框架示意图）、Making_box_plot.ipynb（箱线图绘制代码） - 甲醇主题任务文件： - 分类任务：Finetuning_Classification.ipynb（分类微调代码）、Data_class_final.gzip（分类数据）、confusion_eval_methanol.pdf（混淆矩阵图） - 数据提取与标注：Meta_analysis.ipynb（元分析代码）、Abstracts Fulltext Download.ipynb（文献下载代码）、data_keywords_0.csv（关键词数据）、greenhouse gases in methanol synthesis.gzip（温室气体数据） - 预训练任务：pretraining_run.ipynb（预训练代码）、merge_peft_adapter.py（适配器合并代码）、learning_pretraining_methanol.pdf（预训练学习曲线） - 问答任务：Finetuning QnA.ipynb（问答微调代码）、Q&A model_testing.ipynb（模型测试代码）、qna_lca.gzip（问答数据集） - 塑料包装主题任务文件： - 分类任务：Classification_.ipynb（分类代码）、class_340_data.gzip（分类数据）、confusion_train_plastic.pdf（训练混淆矩阵） - 数据提取：Meta_analysis.ipynb（元分析代码）、abstracts_0.gzip（文献摘要数据）、wordcloud_keywords.pdf（关键词词云） - 预训练任务：pretraining_run.ipynb（预训练代码）、merge_peft_adapter.py（适配器合并代码） - 问答任务：Fine_tune_QnA.ipynb（问答微调代码）、metric_calculation.ipynb（指标计算代码）

适用场景

生命周期评估（LCA）研究：自动化获取文献中的LCI数据与环境影响参数
大语言模型应用：探索领域适配型LLM在环境数据检索中的微调方法
化工行业减排：支撑甲醇、塑料包装等领域的净零排放路径分析
文献计量分析：研究环境科学领域文献的关键词分布与国家研究趋势
机器学习方法论：验证多阶段LLM框架在专业数据检索任务中的有效性

数据与资源

crzyczpfxm-1.zipZIP
88.13 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	88.13 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。