Nature_of_EU_Rules_监管语句研究可复现数据

本数据集为欧盟立法监管语句量化研究的可复现数据，包含1971-2022年欧盟立法文件中语句的分类训练数据、模型文件及分类结果等，支持其他研究者复现“欧盟规则性质”项目对法规严格性和密度的分析。

complete_training_data.csv
文件格式：CSV
字段映射：包含标注的欧盟立法语句（标注由丹麦奥胡斯大学和荷兰拉德堡德大学法学教授完成），标注类别为监管性语句（构成法律义务）或构成性语句，另含受监管主体识别列（未用于研究）
extracted_sentences_classified_1971_2022.csv
文件格式：CSV
字段映射：含欧盟立法文件提取的语句列表，及基于语法依存解析（规则法）和LegalBERT（模型法）的两类监管语句分类结果
inlegal_bert_xgboost_classifier.json
文件格式：JSON
字段映射：基于InlegalBERT训练的二分类模型，用于判断语句是否为监管性语句（训练数据为complete_training_data.csv）
metadata_enriched.csv
文件格式：CSV
字段映射：含原始元数据及新增列（如每份文件的监管语句计数）
classification_results_all_algorithms_test_set.csv
文件格式：CSV
字段映射：含1451条测试语句的真实标签、规则法分类结果、Legal-BERT模型分类结果

“欧盟规则性质”（Nature of EU Rules）项目

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	233.36 MiB
最后更新	2026年1月29日
创建于	2026年1月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。