专利短语匹配数据集PatentPhrasetoPhraseMatching-searchone
数据来源:互联网公开数据
标签:专利, 自然语言处理, 文本匹配, 语义相似度, 文本分析, 机器学习, 专利检索, 数据集
数据概述:
该数据集包含来自美国专利商标局(USPTO)的专利文本数据,记录了专利申请中的锚点短语(anchor)、目标短语(target)以及它们之间的匹配关系。主要特征如下:
时间跨度:数据未明确标明具体时间,但反映了专利申请文本的静态快照。
地理范围:数据主要涉及美国专利申请,但其内容具有全球通用性。
数据维度:数据集包括以下字段:id(唯一标识符),anchor(锚点短语),target(目标短语),context(专利技术领域,以IPC分类号表示),以及train.csv中的score(锚点短语与目标短语之间的匹配分数,范围从0到1)。
数据格式:CSV格式,包含train.csv(训练集)、test.csv(测试集)和sample_submission.csv(提交示例),便于数据分析和模型训练。
来源信息:数据来源于Kaggle竞赛,原始数据经过整理和清洗,用于训练和评估文本匹配模型。
该数据集适合用于自然语言处理、文本匹配、语义相似度计算等研究和应用。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、信息检索、文本挖掘等领域的学术研究,例如专利检索优化、语义相似度计算、关键词提取等。
行业应用:为知识产权行业提供数据支持,例如专利分析、技术趋势预测、竞争情报分析等。
决策支持:支持研发部门进行技术调研、专利布局,以及辅助企业进行技术创新战略制定。
教育和培训:作为自然语言处理、机器学习相关课程的实训数据集,帮助学生和研究人员掌握文本匹配、语义理解等技术。
此数据集特别适合用于探索专利文本之间的语义关联性,帮助用户构建专利检索系统、提升专利分类准确度,以及进行技术领域的深入分析。