数据集概述
本数据集为欧盟立法监管语句量化研究的可复现数据,包含1971-2022年欧盟立法文件中语句的分类训练数据、模型文件及分类结果等,支持其他研究者复现“欧盟规则性质”项目对法规严格性和密度的分析。
文件详解
complete_training_data.csv
- 文件格式:CSV
- 字段映射:包含标注的欧盟立法语句(标注由丹麦奥胡斯大学和荷兰拉德堡德大学法学教授完成),标注类别为监管性语句(构成法律义务)或构成性语句,另含受监管主体识别列(未用于研究)
extracted_sentences_classified_1971_2022.csv
- 文件格式:CSV
- 字段映射:含欧盟立法文件提取的语句列表,及基于语法依存解析(规则法)和LegalBERT(模型法)的两类监管语句分类结果
inlegal_bert_xgboost_classifier.json
- 文件格式:JSON
- 字段映射:基于InlegalBERT训练的二分类模型,用于判断语句是否为监管性语句(训练数据为
complete_training_data.csv)
metadata_enriched.csv
- 文件格式:CSV
- 字段映射:含原始元数据及新增列(如每份文件的监管语句计数)
classification_results_all_algorithms_test_set.csv
- 文件格式:CSV
- 字段映射:含1451条测试语句的真实标签、规则法分类结果、Legal-BERT模型分类结果
数据来源
“欧盟规则性质”(Nature of EU Rules)项目
适用场景
- 法律文本监管语句分类:用于训练和验证欧盟立法中监管性语句的自动识别模型
- 欧盟法规严格性分析:通过监管语句计数等指标分析欧盟法规的严格性与密度变化
- 法律NLP模型评估:对比规则法与LegalBERT模型在法律语句分类任务中的性能
- 学术研究可复现:支持其他研究者复现欧盟立法监管语句量化研究的结果