数据集

结构化大语言模型生成事件消息的机器学习分类器_人工标注数据集及验证代码

数据集概述

本数据集及代码包支持使用BERT、Keras、XGBoost和集成方法等多种机器学习分类器，对结构化大语言模型（LLM）生成的事件消息进行可复现评估。包含人工标注数据集、未标注数据集、预处理与模型训练代码，以及环境配置文件，为复现相关研究结果和拓展分析提供支持。

文件详解

该数据集包含9个ZIP格式压缩文件，具体说明如下： - 数据文件: - Data - ML Classification 10K Fold Results.zip: 可能包含机器学习分类10折交叉验证结果数据 - Data - ML Training Time Tracking.zip: 可能包含模型训练时间跟踪数据 - Data - Human-Tagged, Validation Sample.zip: 可能包含人工标注的验证样本数据 - Data - Human-Tagged, Original Sample.zip: 可能包含人工标注的原始样本数据 - Data - AI-Tagged, Validation Sample.zip: 可能包含AI标注的验证样本数据 - Data - Untagged, AI-Generated Messages.zip: 可能包含未标注的AI生成消息数据 - 代码文件: - Code - Python Scripts.zip: 可能包含Python预处理、模型训练与评估脚本 - Code - R Project.zip: 可能包含R语言数据分析与可视化脚本

适用场景

自然语言处理研究: 用于复现结构化LLM生成事件消息的机器学习分类评估实验
模型验证与基准测试: 支持BERT、XGBoost等分类器在事件消息生成任务中的性能验证
数据标注研究: 可基于人工标注数据集开展半自动化标注或迁移学习研究
跨领域拓展分析: 适用于多语言或特定领域LLM消息生成任务的基准测试与方法优化

数据与资源

g2sdzmssgh-1.zipZIP
13.85 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	13.85 MiB
最后更新	2025年11月28日
创建于	2025年11月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。