数据集

专利文本相关性分析数据集PatentTextRelevanceAnalysis-datafan07

数据来源：互联网公开数据

标签：专利, 文本分析, 语义相似度, 信息检索, 机器学习, 专利分类, 文本匹配, 知识产权

数据概述：该数据集包含来自专利文本的数据，记录了锚文本（anchor）、目标文本（target）、上下文（context）及其相关性评分。主要特征如下：时间跨度：数据未标明具体时间，可视为静态专利文本数据。地理范围：数据涵盖全球范围内的专利信息，具体来源和地域信息未明确。数据维度：包括以下字段：id（唯一标识符）、anchor（锚文本）、target（目标文本）、context（上下文）、score（相关性评分）、score_map（评分映射）、anchor_map（锚文本映射）、kfold（交叉验证分组）、context_text（上下文文本）、text（组合文本）、debl_cust_sig（自定义信号）。数据格式：CSV格式，文件名为oof_debl_cust_sig.csv，便于数据处理和分析。数据字段结构清晰，便于进行文本分析和建模。该数据集适合用于专利文本相似度计算、专利分类、信息检索等研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、信息检索和专利分析等领域的学术研究，如专利文本相似度计算、专利分类、技术趋势分析等。行业应用：可以为知识产权机构、专利检索服务提供商提供数据支持，用于改进专利检索的准确性和效率。决策支持：支持企业进行技术情报分析、竞争对手分析和技术布局规划。教育和培训：作为自然语言处理、信息检索等课程的辅助材料，帮助学生和研究人员理解和应用文本分析技术。此数据集特别适合用于探索专利文本之间的关联关系，评估不同文本片段之间的相关性，帮助用户实现专利信息的深度挖掘和分析。

数据与资源

versions_1741594712.zipZIP
1.37 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.37 MiB
最后更新	2025年4月29日
创建于	2025年4月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。