专利问题_解决方案与优势语句黄金数据集

数据集概述

该数据集包含两类专利相关数据:一是经人工标注(技术问题、解决方案、优势效果)的黄金集,二是用于模型评估的随机专利测试数据,为专利文本信息抽取研究提供标注基准与测试资源。

文件详解

  • 文件名称: Test Data.csv
  • 文件格式: CSV
  • 核心字段: zip_file(压缩包标识)、priorities(优先权信息)、uid(专利唯一标识)、priority_Date(优先权日期)、filing_Date(申请日期)、publication_Date(公开日期)、inventors(发明人)、assignee_patent(专利受让人)、assignee_company(企业受让人)、main_cpc(主CPC分类)、cpc(CPC分类)、cpc_4(四级CPC分类)、ipc(IPC分类)、ipc_4(四级IPC分类)、title(专利标题)、text(文本内容)、type_text(文本类型)、section(章节)、sub_section(子章节)、seq(序列)、sub_section_num(子章节编号)

数据来源

United States Patent and Trademark Office (USPTO)

适用场景

  • 自然语言处理研究:用于训练和评估专利文本中问题、解决方案、优势语句的抽取模型
  • 专利信息挖掘:支持自动化提取专利核心技术要素,提升专利分析效率
  • 知识产权管理:辅助专利检索、技术竞争力分析等实务工作
  • 技术创新研究:为技术趋势追踪、创新热点识别提供结构化数据基础
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 8.86 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。