知识产权专利数据集

知识产权专利数据集 数据来源:互联网公开数据
标签:专利分析,技术提取,关系抽取,技术术语,文本挖掘,自然语言处理

数据概述:
本数据集包含以下内容:
1. HO4N专利文本,用于训练提取术语和关系的模型。
2. 解析后的专利数据CSV文件,存储了从文本文件中提取的专利信息。
3. 三个倒排索引,其中键为技术术语,值为专利索引,表示每个术语在专利中的出现位置。三个索引的区别在于搜索技术术语的专利部分(仅在权利要求、权利要求与正文的交集、权利要求与正文的并集)。
4. 包含Prodigy标注输出的子文件夹,以及已训练的Spacy模型。

数据用途概述:
该数据集适用于专利文本分析、技术术语提取、技术关系抽取、自然语言处理模型训练等多种场景。研究人员可利用此数据集进行专利文本挖掘,分析技术术语的分布与关联;企业可借助数据集优化技术检索,识别潜在的技术趋势与创新点;开发者可利用已训练的Spacy模型快速开展相关任务,如术语标注与实体关系抽取。此外,数据集还可用于技术情报分析,支持企业在研发与市场竞争中做出更精准的决策。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 103.03 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。