"英文标题:Justice Judgment Document Semantic Analysis Feature Parameters Dataset
数据集概述
基于司法裁判文书文本内容的结构化特征参数集合,通过语义分析技术提取裁判文书中的法律关系、主体属性、事实认定、裁判依据等核心信息。
数据以单文书为基本单元,覆盖刑事、民事、行政等主要案件类型,颗粒度精确至文书段落、语义单元层级,支持法律关系的多维度拆解与分析。字段定义遵循法律语义分析领域的标准化框架,特征参数包括语义关联性、实体标注置信度、法律关系类型编码等技术指标。
该数据集为法律人工智能应用提供基础支撑,通过结构化的特征参数,可实现裁判文书的快速检索、法律关系的智能识别、类案匹配的精准度提升。既服务于学术研究中的法律文本分析模型训练,也可用于法律实务中的案件处理效率优化。
字段详情
数据集包含以下核心字段:
document_id:文书唯一标识符,由法院编码与案件编号组合生成,用于文书的精准定位与关联
case_type:案件类型,采用《最高人民法院案件类型代码》编码,包括刑事、民事、行政等大类
legal_relation_codes:法律关系编码集,以数组形式存储文书中识别的核心法律关系,采用标准化法律关系分类体系
entity_confidence_score:实体识别置信度,单位百分比,指语义分析模型识别文书中法律主体、客体的可信程度
semantic_relevance:语义关联性评分,范围0-1,用于衡量文书段落与核心法律事实的关联强度
适用场景
- 法律人工智能企业训练司法文本语义分析模型,提升类案检索系统的匹配精度
- 高校法律人工智能研究团队开展法律关系自动提取算法的性能验证与优化
- 法院系统构建智能文书检索平台,辅助法官快速定位类案裁判规则
- 律师事务所开发案件分析工具,自动梳理委托案件的核心法律关系与裁判要点"