巴西葡萄牙语法律文本命名实体识别数据集-thedevastator

巴西葡萄牙语法律文本命名实体识别数据集-thedevastator 数据来源:互联网公开数据 标签:命名实体识别,法律文本,巴西,葡萄牙语,数据集,标记,法律,实体,NER 数据概述: 本数据集是一个专门为葡萄牙语法律文本命名实体识别(NER)设计的综合数据集,特别适用于巴西法律文档的分析。该数据集由手动标注的文本组成,这些文本来自于巴西各级法院(包括联邦最高法院、最高法院、米纳斯吉拉斯州法院和联邦审计法院)以及重要的立法文件(如玛丽亚·达彭纳法)。

数据集包括70个独特的法律文件,并对其中的实体进行了细致的标记,覆盖了人员、地点、时间、组织、立法引用和法律案件引用等类型。每条文本实例包含两个主要字段:tokens和ner_tags,tokens字段包含文本中的个体词或标记,而ner_tags字段则为每个词或标记分配相应的NER标签。

数据集的目的是为了开发和评估专门用于葡萄牙语法律文本分析的NER模型。研究人员和数据科学家可以利用这些标记数据有效地训练NER模型,并且通过来自巴西司法体系中多样化的法律上下文获得有价值的见解。

数据用途概述: 该数据集适用于训练和评估葡萄牙语法律文本中的命名实体识别模型,为研究人员和从业人员提供了宝贵的资源。数据集可用于以下场景: - 训练命名实体识别(NER)模型:利用手动标注的文本,模型可以学习在法律文本上下文中准确识别和分类不同类型的实体。 - 评估NER模型性能:使用单独的测试集(test.csv)评估预训练NER模型在葡萄牙语法律文本上的性能。 - 开发特定领域的语言技术:通过关注法律文本,可以开发葡萄牙语国家的特定语言技术,如案例法的自动总结、从立法中提取信息或基于过去案件为律师构建推荐系统等。

数据集中的文件包括train.csv、validation.csv和test.csv,每个文件中的字段相同: - tokens:包含从每个文档文本中提取的个体词或标记。 - ner_tags:为每个词或标记提供命名实体识别(NER)标签,这些标签将词或标记分类为不同实体类型,如人名、地点、时间、组织、立法名称或法律案件引用等。

该数据集遵循CC0 1.0 Universal (CC0 1.0) 公共领域声明许可,允许自由复制、修改、分发和使用,包括商业用途,无需获得许可。如果在研究中使用此数据集,请务必引用原始作者lener_br(来自Huggingface)。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.7 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。