专利文本语义相关性评估数据集PatentTextSemanticRelatednessEvaluation-datafan07

专利文本语义相关性评估数据集PatentTextSemanticRelatednessEvaluation-datafan07

数据来源:互联网公开数据

标签:专利, 文本匹配, 语义相似度, 自然语言处理, 文本分析, 机器学习, 专利检索, 文本向量化

数据概述: 该数据集包含来自专利文献的数据,记录了锚文本、目标文本及其上下文信息,用于评估文本之间的语义相关性。主要特征如下: 时间跨度:数据未明确标注时间戳,可视为静态语料。 地理范围:数据来源于专利文献,未限定具体国家或地区。 数据维度:数据集包含以下字段: id:唯一标识符。 anchor:锚文本。 target:目标文本。 context:文本上下文。 score:语义相关性评分(数值型,范围未知)。 score_map:评分映射信息。 anchor_map:锚文本映射信息。 kfold:交叉验证折数。 title:专利标题。 section:专利所属技术领域。 class:专利分类号。 subclass:专利子分类号。 group:专利分组信息。 main_group:专利主分组信息。 text:文本内容。 full:完整文本内容。 pbert_mse_rev2:预测结果。 数据格式:CSV格式,文件名为oof_pbert_ms_rev.csv,便于数据读取和分析。 该数据集适合用于语义相关性分析、文本匹配、信息检索等任务。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、信息检索、专利分析等领域的学术研究,如语义相似度计算、文本分类、信息抽取等。 行业应用:为专利检索系统、技术情报分析平台提供数据支持,用于提升检索精度和分析效率。 决策支持:支持技术研发、知识产权管理等领域的决策制定。 教育和培训:作为自然语言处理、机器学习等课程的实训数据集,帮助学生理解文本语义分析方法。 此数据集特别适合用于探索专利文本之间的语义关系,评估不同文本表示方法的效果,并优化专利检索和分析的准确性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.2 MiB
最后更新 2025年5月1日
创建于 2025年5月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。