专利文本语义相似度分析数据集PatentTextSemanticSimilarityAnalysis-banbeipi
数据来源:互联网公开数据
标签:专利, 文本相似度, 自然语言处理, 语义分析, 文本匹配, 机器学习, 专利检索, 知识产权
数据概述:
该数据集包含来自美国专利商标局(USPTO)的专利文本数据,记录了专利文本中锚文本(anchor)、目标文本(target)及其上下文(context)之间的语义相似度信息,用于训练和评估文本相似度模型。主要特征如下:
时间跨度:数据未明确标注时间,可视为静态语料数据集,涵盖了历史专利文本。
地理范围:数据来源于美国专利,主要涉及美国境内的专利信息。
数据维度:包括“id”(唯一标识符)、“anchor”(锚文本)、“target”(目标文本)、“context”(上下文)、“score”(相似度评分)、“context_text”(上下文文本)、“text”(组合文本,可能为锚文本与目标文本的组合)、“score_map”(评分映射)、“fold”(交叉验证折叠信息)和“pred”(预测值)等字段,其中“score”字段为核心相似度指标。
数据格式:CSV格式,包含多个独立文件,文件名体现了不同的模型或特征工程处理结果,如“bart.csv”、“bert.csv”等,便于进行模型对比和集成。
数据来源:数据来源于美国专利文本,经过了预处理和特征提取,形成了结构化的数据集。
该数据集适合用于文本相似度计算、信息检索、自然语言处理模型训练和评估等任务。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、文本挖掘等领域的学术研究,如专利文本语义理解、专利检索算法优化、专利分类等。
行业应用:为知识产权行业提供数据支持,可应用于专利审查、专利信息检索、专利侵权分析、技术情报分析等。
决策支持:支持企业和研究机构进行技术趋势分析、竞争对手分析、技术布局规划等决策。
教育和培训:作为自然语言处理、机器学习课程的实训数据,帮助学生和研究人员深入理解文本相似度计算和专利分析。
此数据集特别适合用于探索专利文本的语义关联,评估不同模型在专利文本相似度计算上的表现,从而提升专利检索和分析的效率和准确性。