数据集概述
本数据集围绕Sustain-LLaMA框架构建,该框架通过分类、预训练、问答三阶段微调大语言模型,实现从科学文献中自动化检索生命周期清单(LCI)和环境影响数据,提升化工与塑料行业向净零排放转型的数据获取效率。
文件详解
该数据集按研究主题和任务阶段分类,包含以下核心文件类型:
- 框架与可视化文件:FRAMEWORK.png(框架示意图)、Making_box_plot.ipynb(箱线图绘制代码)
- 甲醇主题任务文件:
- 分类任务:Finetuning_Classification.ipynb(分类微调代码)、Data_class_final.gzip(分类数据)、confusion_eval_methanol.pdf(混淆矩阵图)
- 数据提取与标注:Meta_analysis.ipynb(元分析代码)、Abstracts Fulltext Download.ipynb(文献下载代码)、data_keywords_0.csv(关键词数据)、greenhouse gases in methanol synthesis.gzip(温室气体数据)
- 预训练任务:pretraining_run.ipynb(预训练代码)、merge_peft_adapter.py(适配器合并代码)、learning_pretraining_methanol.pdf(预训练学习曲线)
- 问答任务:Finetuning QnA.ipynb(问答微调代码)、Q&A model_testing.ipynb(模型测试代码)、qna_lca.gzip(问答数据集)
- 塑料包装主题任务文件:
- 分类任务:Classification_.ipynb(分类代码)、class_340_data.gzip(分类数据)、confusion_train_plastic.pdf(训练混淆矩阵)
- 数据提取:Meta_analysis.ipynb(元分析代码)、abstracts_0.gzip(文献摘要数据)、wordcloud_keywords.pdf(关键词词云)
- 预训练任务:pretraining_run.ipynb(预训练代码)、merge_peft_adapter.py(适配器合并代码)
- 问答任务:Fine_tune_QnA.ipynb(问答微调代码)、metric_calculation.ipynb(指标计算代码)
适用场景
- 生命周期评估(LCA)研究:自动化获取文献中的LCI数据与环境影响参数
- 大语言模型应用:探索领域适配型LLM在环境数据检索中的微调方法
- 化工行业减排:支撑甲醇、塑料包装等领域的净零排放路径分析
- 文献计量分析:研究环境科学领域文献的关键词分布与国家研究趋势
- 机器学习方法论:验证多阶段LLM框架在专业数据检索任务中的有效性