数据集

专利文本语义相似度预测数据集PatentTextSemanticSimilarityPrediction-datafan07

数据来源：互联网公开数据

标签：专利, 文本相似度, 自然语言处理, 语义分析, 机器学习, 文本分类, 专利检索, 文本匹配

数据概述：该数据集包含来自专利文献的数据，记录了锚文本（anchor）、目标文本（target）及其上下文环境信息，旨在用于预测文本之间的语义相似度。主要特征如下：时间跨度：数据未明确标注时间，可视为静态语料数据集。地理范围：数据来源于专利文献，覆盖范围广泛，取决于专利申请的国家或地区。数据维度：数据集包含以下关键字段： id：文本对的唯一标识符。 anchor：锚文本，通常为专利中的关键词或短语。 target：目标文本，与锚文本相关的其他文本。 context：文本对的上下文信息，如专利标题、所属章节等。 score：表示锚文本和目标文本之间的相似度得分，范围为0-1。 score_map：与相似度得分相关的映射值。 anchor_map：锚文本的映射值。 kfold：交叉验证的折数信息。 title：专利标题。 section：专利所属的章节。 class：专利分类号。 subclass：专利子分类号。 group：专利分组信息。 main_group：专利主分组信息。 full：包含anchor、target和context的完整文本。 albert_sig_lst：使用ALBERT模型生成的特征向量。数据格式：CSV格式，文件名为oof_albert_sig_lst.csv，方便进行数据分析和模型训练。该数据集适合用于语义相似度计算、专利文本检索、文本分类等任务，并可用于构建基于深度学习的文本匹配模型。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、信息检索、专利分析等领域的学术研究，如语义相似度计算方法研究、专利分类与检索模型构建等。行业应用：可以为知识产权行业、专利检索公司等提供数据支持，用于改进专利检索系统的准确性和效率，以及专利文本的自动分类和分析。决策支持：支持企业在技术研发、专利申请、知识产权管理等方面的决策，帮助企业进行专利布局和竞争对手分析。教育和培训：作为自然语言处理、机器学习、信息检索等相关课程的实训数据，帮助学生和研究人员掌握文本相似度计算、模型构建等技能。此数据集特别适合用于探索专利文本之间的语义关联，以及构建能够准确预测文本相似度的模型，从而提高专利检索的效率和准确性，辅助知识产权管理与决策。

数据与资源

versions_20250325060347.zipZIP
1.29 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.29 MiB
最后更新	2025年4月29日
创建于	2025年4月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

专利文本语义相似度预测数据集PatentTextSemanticSimilarityPrediction-datafan07

数据与资源

附加信息

注册成功！