数据集

法律文档检索数据集

法律文档检索数据集数据来源：互联网公开数据
标签：法律文档,文本检索,问答系统,自然语言处理,信息抽取,司法应用,机器学习

数据概述：
本数据集旨在支持法律文档检索和问答系统的开发，包含三个主要文件：corpus.csv、train.csv 和 public_test.csv。
1. corpus.csv：存储法律文本及其唯一标识符，字段包括：
- text：法律文本内容（字符串类型）
- cid：文本在语料库中的唯一标识符（整数类型）

train.csv：包含训练数据，字段包括：
question：问题文本内容（字符串类型）
qid：问题的唯一标识符（字符串类型）
context：与问题相关的法律文本段落列表（字符串列表类型）
cid：与问题相关的法律文本段落的标识符列表（整数列表类型）
public_test.csv：包含测试数据，字段包括：
question：问题文本内容（字符串类型）
qid：问题的唯一标识符（字符串类型）

数据用途概述：
该数据集适用于法律文本检索、问答系统开发、自然语言处理模型训练、信息抽取任务以及司法辅助应用等场景。研究人员和开发者可以利用此数据集训练和评估法律文档检索模型，支持从大量法律文本中快速准确地提取相关信息。此外，数据集还可用于法律信息抽取、法律问答生成与评估等任务，为司法领域的智能化应用提供数据支持。

数据与资源

法律文档检索数据集.zipZIP
107.01 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	107.01 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

法律文档检索数据集

数据与资源

附加信息

注册成功！