印度最高法院法律词汇嵌入数据集1950_2016

数据集概述

该数据集是基于印度最高法院1950年1月至2016年12月间的四万八千余份判决训练的法律领域词嵌入模型,包含三万四千余个法律词汇及对应的一百维向量,采用Word2Vec的CBOW变体训练。

文件详解

  • 文件名称: Legal W2V
  • 文件格式: 无扩展名
  • 核心内容: 包含三万四千余个法律领域词汇及其一百维向量表示,训练参数为向量维度100、窗口大小10、迭代次数10、最小词频10

适用场景

  • 法律信息检索: 提升法律文本搜索的准确性和相关性
  • 法律信息学研究: 支持法律文本分类、案例相似度匹配等任务
  • 法律自然语言处理: 作为法律领域模型训练的预训练词嵌入资源
  • 司法文本分析: 辅助挖掘判决文书中的语义关联和法律概念网络
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.73 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。