数据集概述
本数据集是论文《Knowledge Discovery in Project Artifacts: Leveraging LLMs for Domain Modeling》的配套文件,核心内容为利用大语言模型(LLMs)从非结构化项目工件中提取并可视化领域模型的相关数据,模型涵盖软件、系统、用户及数据保护、安全等跨领域关注点。
文件详解
该数据集包含23个文件,按类型分类说明如下:
- 文档类文件(.txt、.md、.pdf格式):
- README.md:数据集说明文档
- documentation_data_extraction_de.txt、documentation_domain_model_generation_de.txt等8个.txt文件:德文或英文的流程文档,包含数据提取、领域模型生成等步骤说明
- security_and_privacy_aspects_en.pdf、security_and_privacy_aspects_de.pdf:英文/德文的安全与隐私方面文档
- 模型与可视化文件(.puml、.png格式):
- result_plantuml_de.puml、result_simplified_plantuml_en.puml等6个.puml文件:PlantUML格式的领域模型文件
- result_plantuml_without_user_interaction_de.png、simplified_plantuml_diagram_en.png等4个.png文件:领域模型的可视化图片
- 评估文件(.xlsx格式):
- evaluation_de.xlsx、evaluation_en.xlsx:德文/英文的评估数据表格
适用场景
- 软件工程研究:分析LLMs在非结构化项目工件中提取领域模型的方法效果
- 大语言模型应用:探索LLMs在领域建模任务中的技术落地路径
- 跨领域关注点分析:研究数据保护、安全等跨领域需求在领域模型中的可视化表达
- 项目知识管理:为项目工件中的知识发现与结构化建模提供实践参考