德国法律语言停用词数据集_SW_DE_RS

数据集概述

该数据集是针对德国法律语言的专用停用词列表,基于1998-2020年德国联邦宪法法院等机构判决中的高频词开发,补充通用语言停用词列表,适用于法律文本的自然语言处理分析,需结合使用说明文档(Codebook)。

文件详解

  • 文件名称:SW-DE-RS_v1-0-0_Datensatz.csv
  • 文件格式:CSV
  • 字段映射:包含多列分类的法律停用词,如通用词(Allgemein)、缩写(Abkuerzungen)、罗马数字(Zahl-roemisch)、月份(Monate)等,示例字段值包括"a"、"Absatz"、"I"、"Januar"等
  • 文件名称:SW-DE-RS_v1-0-0_Codebook.pdf
  • 文件格式:PDF
  • 内容说明:包含数据集正确使用的重要信息,需结合该文档使用数据

适用场景

  • 法律文本自然语言处理:用于法律文档的定量分析,提升文本处理效率与结果质量
  • 法律信息检索优化:辅助构建法律领域的文本检索系统,过滤无关高频词
  • 法律语言学研究:支持德国法律语言特点及风格的学术分析
  • 法律AI工具开发:为法律领域的NLP模型提供专用停用词资源
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.27 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。