数据集

知识产权专利数据集

知识产权专利数据集数据来源：互联网公开数据
标签：专利分析,技术提取,关系抽取,技术术语,文本挖掘,自然语言处理

数据概述：
本数据集包含以下内容：
1. HO4N专利文本，用于训练提取术语和关系的模型。
2. 解析后的专利数据CSV文件，存储了从文本文件中提取的专利信息。
3. 三个倒排索引，其中键为技术术语，值为专利索引，表示每个术语在专利中的出现位置。三个索引的区别在于搜索技术术语的专利部分（仅在权利要求、权利要求与正文的交集、权利要求与正文的并集）。
4. 包含Prodigy标注输出的子文件夹，以及已训练的Spacy模型。

数据用途概述：
该数据集适用于专利文本分析、技术术语提取、技术关系抽取、自然语言处理模型训练等多种场景。研究人员可利用此数据集进行专利文本挖掘，分析技术术语的分布与关联；企业可借助数据集优化技术检索，识别潜在的技术趋势与创新点；开发者可利用已训练的Spacy模型快速开展相关任务，如术语标注与实体关系抽取。此外，数据集还可用于技术情报分析，支持企业在研发与市场竞争中做出更精准的决策。

数据与资源

知识产权专利数据集.zipZIP
103.03 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	103.03 MiB
最后更新	2025年4月19日
创建于	2025年4月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

知识产权专利数据集

数据与资源

附加信息

注册成功！