数据集

专利文本相关性分析训练数据集PatentTextRelevanceAnalysisTrainingDataset-jerryyjn

数据来源：互联网公开数据

标签：专利, 文本匹配, 文本相似度, 自然语言处理, 关键词提取, 语义分析, 机器阅读理解, 数据标注

数据概述：该数据集包含来自专利文献的数据，记录了锚文本（anchor）、目标文本（target）、上下文（context）以及它们之间的相关性评分。主要特征如下：时间跨度：数据未明确标明时间，可视为静态语料数据集。地理范围：数据来源于专利文献，涵盖全球范围内的技术领域。数据维度：包括以下字段： id：唯一标识符； anchor：锚文本，通常是专利中的关键词或关键短语； target：目标文本，与锚文本相关的文本； context：上下文信息，提供锚文本和目标文本出现的语境； score：相关性评分，反映目标文本与锚文本的相关程度； title：专利标题； fold：交叉验证的折叠标识，用于模型训练和评估； text：由anchor, target, context拼接而成的文本，使用SEP分隔符分隔。数据格式：CSV格式，文件名为train_folds_strat_5.csv，便于文本处理与模型训练。来源信息：数据来源于专利文本，并已进行预处理，包括文本清洗和结构化。该数据集适合用于文本匹配、语义理解和信息检索等研究，以及构建基于专利文本的机器学习模型。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、信息检索、文本挖掘等领域的学术研究，例如专利文本相似度计算、关键词提取、以及构建专利信息检索系统等。行业应用：为知识产权行业提供数据支持，可用于专利审查、专利检索、以及竞争对手分析等。决策支持：支持企业在技术研发和市场分析方面的决策制定，帮助企业更好地理解专利技术的发展趋势。教育和培训：作为自然语言处理、机器学习等课程的实训数据，帮助学生和研究人员熟悉文本处理流程，训练文本匹配和分类模型。此数据集特别适合用于探索专利文本之间的相关性，提升专利检索和信息提取的效率，并可用于构建智能专利分析系统。

数据与资源

versions_20250412075018.zipZIP
0.90 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.9 MiB
最后更新	2025年4月29日
创建于	2025年4月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

专利文本相关性分析训练数据集PatentTextRelevanceAnalysisTrainingDataset-jerryyjn

数据与资源

附加信息

注册成功！