专利文本语义相关性评估数据集PatentTextSemanticRelatednessEvaluation-datafan07
数据来源:互联网公开数据
标签:专利, 文本匹配, 语义相似度, 自然语言处理, 文本分析, 机器学习, 专利检索, 文本向量化
数据概述:
该数据集包含来自专利文献的数据,记录了锚文本、目标文本及其上下文信息,用于评估文本之间的语义相关性。主要特征如下:
时间跨度:数据未明确标注时间戳,可视为静态语料。
地理范围:数据来源于专利文献,未限定具体国家或地区。
数据维度:数据集包含以下字段:
id:唯一标识符。
anchor:锚文本。
target:目标文本。
context:文本上下文。
score:语义相关性评分(数值型,范围未知)。
score_map:评分映射信息。
anchor_map:锚文本映射信息。
kfold:交叉验证折数。
title:专利标题。
section:专利所属技术领域。
class:专利分类号。
subclass:专利子分类号。
group:专利分组信息。
main_group:专利主分组信息。
text:文本内容。
full:完整文本内容。
pbert_mse_rev2:预测结果。
数据格式:CSV格式,文件名为oof_pbert_ms_rev.csv,便于数据读取和分析。
该数据集适合用于语义相关性分析、文本匹配、信息检索等任务。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、信息检索、专利分析等领域的学术研究,如语义相似度计算、文本分类、信息抽取等。
行业应用:为专利检索系统、技术情报分析平台提供数据支持,用于提升检索精度和分析效率。
决策支持:支持技术研发、知识产权管理等领域的决策制定。
教育和培训:作为自然语言处理、机器学习等课程的实训数据集,帮助学生理解文本语义分析方法。
此数据集特别适合用于探索专利文本之间的语义关系,评估不同文本表示方法的效果,并优化专利检索和分析的准确性。