Nature_of_EU_Rules_监管语句研究可复现数据

数据集概述

本数据集为欧盟立法监管语句量化研究的可复现数据,包含1971-2022年欧盟立法文件中语句的分类训练数据、模型文件及分类结果等,支持其他研究者复现“欧盟规则性质”项目对法规严格性和密度的分析。

文件详解

  • complete_training_data.csv
  • 文件格式:CSV
  • 字段映射:包含标注的欧盟立法语句(标注由丹麦奥胡斯大学和荷兰拉德堡德大学法学教授完成),标注类别为监管性语句(构成法律义务)或构成性语句,另含受监管主体识别列(未用于研究)
  • extracted_sentences_classified_1971_2022.csv
  • 文件格式:CSV
  • 字段映射:含欧盟立法文件提取的语句列表,及基于语法依存解析(规则法)和LegalBERT(模型法)的两类监管语句分类结果
  • inlegal_bert_xgboost_classifier.json
  • 文件格式:JSON
  • 字段映射:基于InlegalBERT训练的二分类模型,用于判断语句是否为监管性语句(训练数据为complete_training_data.csv
  • metadata_enriched.csv
  • 文件格式:CSV
  • 字段映射:含原始元数据及新增列(如每份文件的监管语句计数)
  • classification_results_all_algorithms_test_set.csv
  • 文件格式:CSV
  • 字段映射:含1451条测试语句的真实标签、规则法分类结果、Legal-BERT模型分类结果

数据来源

“欧盟规则性质”(Nature of EU Rules)项目

适用场景

  • 法律文本监管语句分类:用于训练和验证欧盟立法中监管性语句的自动识别模型
  • 欧盟法规严格性分析:通过监管语句计数等指标分析欧盟法规的严格性与密度变化
  • 法律NLP模型评估:对比规则法与LegalBERT模型在法律语句分类任务中的性能
  • 学术研究可复现:支持其他研究者复现欧盟立法监管语句量化研究的结果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 233.36 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。