美国和加州立法提案摘要数据集-undersc0re

美国和加州立法提案摘要数据集-undersc0re 数据来源:互联网公开数据 标签:立法,提案,摘要,文本分析,自然语言处理,美国,加州,法律,文本长度 数据概述: 本数据集包含了美国联邦立法提案和加州立法提案的摘要信息,总计超过23000条记录。数据分为训练集(train)、加州测试集(ca_test)和测试集(test)三个部分。

数据集包含以下关键字段:

text:立法提案的完整文本。 summary:立法提案的摘要信息。 title:立法提案的标题。仅适用于美国联邦立法提案,加州提案无此字段。 text_len:立法提案文本的字符长度。 sum_len:立法提案摘要的字符长度。

数据集的构成:

训练集(train):包含18949条记录,用于模型训练。 加州测试集(ca_test):包含1237条加州立法提案记录,用于测试。 测试集(test):包含3269条记录,用于最终测试。

数据集的结构示例:

{ "summary": "提案的摘要信息", "text": "提案的完整文本。", "title": "一项关于修订xxx条款的法案。" }

数据用途概述: 该数据集适用于多种文本分析和自然语言处理任务,例如:

文本摘要:利用提案文本生成摘要。 文本分类:根据提案内容进行分类。 信息抽取:从提案文本中提取关键信息。 法律文本分析:研究立法提案的语言风格、内容特点等。 模型训练:用于训练文本摘要、文本生成等模型。 研究人员、数据科学家和自然语言处理工程师可以利用该数据集进行模型构建、算法验证和研究探索。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 51.84 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。