法律文档检索数据集

法律文档检索数据集 数据来源:互联网公开数据
标签:法律文档,文本检索,问答系统,自然语言处理,信息抽取,司法应用,机器学习

数据概述:
本数据集旨在支持法律文档检索和问答系统的开发,包含三个主要文件:corpus.csv、train.csv 和 public_test.csv。
1. corpus.csv:存储法律文本及其唯一标识符,字段包括:
- text:法律文本内容(字符串类型)
- cid:文本在语料库中的唯一标识符(整数类型)

  1. train.csv:包含训练数据,字段包括:
  2. question:问题文本内容(字符串类型)
  3. qid:问题的唯一标识符(字符串类型)
  4. context:与问题相关的法律文本段落列表(字符串列表类型)
  5. cid:与问题相关的法律文本段落的标识符列表(整数列表类型)

  6. public_test.csv:包含测试数据,字段包括:

  7. question:问题文本内容(字符串类型)
  8. qid:问题的唯一标识符(字符串类型)

数据用途概述:
该数据集适用于法律文本检索、问答系统开发、自然语言处理模型训练、信息抽取任务以及司法辅助应用等场景。研究人员和开发者可以利用此数据集训练和评估法律文档检索模型,支持从大量法律文本中快速准确地提取相关信息。此外,数据集还可用于法律信息抽取、法律问答生成与评估等任务,为司法领域的智能化应用提供数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 107.01 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。