专利文本相关性分析训练数据集PatentTextRelevanceAnalysisTrainingDataset-jerryyjn

专利文本相关性分析训练数据集PatentTextRelevanceAnalysisTrainingDataset-jerryyjn

数据来源:互联网公开数据

标签:专利, 文本匹配, 文本相似度, 自然语言处理, 关键词提取, 语义分析, 机器阅读理解, 数据标注

数据概述: 该数据集包含来自专利文献的数据,记录了锚文本(anchor)、目标文本(target)、上下文(context)以及它们之间的相关性评分。主要特征如下: 时间跨度:数据未明确标明时间,可视为静态语料数据集。 地理范围:数据来源于专利文献,涵盖全球范围内的技术领域。 数据维度:包括以下字段: id:唯一标识符; anchor:锚文本,通常是专利中的关键词或关键短语; target:目标文本,与锚文本相关的文本; context:上下文信息,提供锚文本和目标文本出现的语境; score:相关性评分,反映目标文本与锚文本的相关程度; title:专利标题; fold:交叉验证的折叠标识,用于模型训练和评估; text:由anchor, target, context拼接而成的文本,使用SEP分隔符分隔。 数据格式:CSV格式,文件名为train_folds_strat_5.csv,便于文本处理与模型训练。 来源信息:数据来源于专利文本,并已进行预处理,包括文本清洗和结构化。 该数据集适合用于文本匹配、语义理解和信息检索等研究,以及构建基于专利文本的机器学习模型。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、信息检索、文本挖掘等领域的学术研究,例如专利文本相似度计算、关键词提取、以及构建专利信息检索系统等。 行业应用:为知识产权行业提供数据支持,可用于专利审查、专利检索、以及竞争对手分析等。 决策支持:支持企业在技术研发和市场分析方面的决策制定,帮助企业更好地理解专利技术的发展趋势。 教育和培训:作为自然语言处理、机器学习等课程的实训数据,帮助学生和研究人员熟悉文本处理流程,训练文本匹配和分类模型。 此数据集特别适合用于探索专利文本之间的相关性,提升专利检索和信息提取的效率,并可用于构建智能专利分析系统。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.9 MiB
最后更新 2025年4月29日
创建于 2025年4月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。