专利文本相关性分析训练数据集PatentTextRelevanceAnalysisTrainingDataset-jerryyjn
数据来源:互联网公开数据
标签:专利, 文本匹配, 文本相似度, 自然语言处理, 关键词提取, 语义分析, 机器阅读理解, 数据标注
数据概述:
该数据集包含来自专利文献的数据,记录了锚文本(anchor)、目标文本(target)、上下文(context)以及它们之间的相关性评分。主要特征如下:
时间跨度:数据未明确标明时间,可视为静态语料数据集。
地理范围:数据来源于专利文献,涵盖全球范围内的技术领域。
数据维度:包括以下字段:
id:唯一标识符;
anchor:锚文本,通常是专利中的关键词或关键短语;
target:目标文本,与锚文本相关的文本;
context:上下文信息,提供锚文本和目标文本出现的语境;
score:相关性评分,反映目标文本与锚文本的相关程度;
title:专利标题;
fold:交叉验证的折叠标识,用于模型训练和评估;
text:由anchor, target, context拼接而成的文本,使用SEP分隔符分隔。
数据格式:CSV格式,文件名为train_folds_strat_5.csv,便于文本处理与模型训练。
来源信息:数据来源于专利文本,并已进行预处理,包括文本清洗和结构化。
该数据集适合用于文本匹配、语义理解和信息检索等研究,以及构建基于专利文本的机器学习模型。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、信息检索、文本挖掘等领域的学术研究,例如专利文本相似度计算、关键词提取、以及构建专利信息检索系统等。
行业应用:为知识产权行业提供数据支持,可用于专利审查、专利检索、以及竞争对手分析等。
决策支持:支持企业在技术研发和市场分析方面的决策制定,帮助企业更好地理解专利技术的发展趋势。
教育和培训:作为自然语言处理、机器学习等课程的实训数据,帮助学生和研究人员熟悉文本处理流程,训练文本匹配和分类模型。
此数据集特别适合用于探索专利文本之间的相关性,提升专利检索和信息提取的效率,并可用于构建智能专利分析系统。