数据集

专利文本语义相似度分析数据集PatentTextSemanticSimilarityAnalysis-banbeipi

数据来源：互联网公开数据

标签：专利, 文本相似度, 自然语言处理, 语义分析, 文本匹配, 机器学习, 专利检索, 知识产权

数据概述：该数据集包含来自美国专利商标局（USPTO）的专利文本数据，记录了专利文本中锚文本（anchor）、目标文本（target）及其上下文（context）之间的语义相似度信息，用于训练和评估文本相似度模型。主要特征如下：时间跨度：数据未明确标注时间，可视为静态语料数据集，涵盖了历史专利文本。地理范围：数据来源于美国专利，主要涉及美国境内的专利信息。数据维度：包括“id”（唯一标识符）、“anchor”（锚文本）、“target”（目标文本）、“context”（上下文）、“score”（相似度评分）、“context_text”（上下文文本）、“text”（组合文本，可能为锚文本与目标文本的组合）、“score_map”（评分映射）、“fold”（交叉验证折叠信息）和“pred”（预测值）等字段，其中“score”字段为核心相似度指标。数据格式：CSV格式，包含多个独立文件，文件名体现了不同的模型或特征工程处理结果，如“bart.csv”、“bert.csv”等，便于进行模型对比和集成。数据来源：数据来源于美国专利文本，经过了预处理和特征提取，形成了结构化的数据集。该数据集适合用于文本相似度计算、信息检索、自然语言处理模型训练和评估等任务。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘等领域的学术研究，如专利文本语义理解、专利检索算法优化、专利分类等。行业应用：为知识产权行业提供数据支持，可应用于专利审查、专利信息检索、专利侵权分析、技术情报分析等。决策支持：支持企业和研究机构进行技术趋势分析、竞争对手分析、技术布局规划等决策。教育和培训：作为自然语言处理、机器学习课程的实训数据，帮助学生和研究人员深入理解文本相似度计算和专利分析。此数据集特别适合用于探索专利文本的语义关联，评估不同模型在专利文本相似度计算上的表现，从而提升专利检索和分析的效率和准确性。

数据与资源

versions_20250313224516.zipZIP
37.60 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	37.6 MiB
最后更新	2025年5月30日
创建于	2025年5月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。