数据集

专利文本语义相关性评估数据集PatentTextSemanticRelatednessEvaluation-datafan07

数据来源：互联网公开数据

标签：专利, 文本匹配, 语义相似度, 自然语言处理, 文本分析, 机器学习, 专利检索, 文本向量化

数据概述：该数据集包含来自专利文献的数据，记录了锚文本、目标文本及其上下文信息，用于评估文本之间的语义相关性。主要特征如下：时间跨度：数据未明确标注时间戳，可视为静态语料。地理范围：数据来源于专利文献，未限定具体国家或地区。数据维度：数据集包含以下字段： id：唯一标识符。 anchor：锚文本。 target：目标文本。 context：文本上下文。 score：语义相关性评分（数值型，范围未知）。 score_map：评分映射信息。 anchor_map：锚文本映射信息。 kfold：交叉验证折数。 title：专利标题。 section：专利所属技术领域。 class：专利分类号。 subclass：专利子分类号。 group：专利分组信息。 main_group：专利主分组信息。 text：文本内容。 full：完整文本内容。 pbert_mse_rev2：预测结果。数据格式：CSV格式，文件名为oof_pbert_ms_rev.csv，便于数据读取和分析。该数据集适合用于语义相关性分析、文本匹配、信息检索等任务。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、信息检索、专利分析等领域的学术研究，如语义相似度计算、文本分类、信息抽取等。行业应用：为专利检索系统、技术情报分析平台提供数据支持，用于提升检索精度和分析效率。决策支持：支持技术研发、知识产权管理等领域的决策制定。教育和培训：作为自然语言处理、机器学习等课程的实训数据集，帮助学生理解文本语义分析方法。此数据集特别适合用于探索专利文本之间的语义关系，评估不同文本表示方法的效果，并优化专利检索和分析的准确性。

数据与资源

versions_20250323205745.zipZIP
1.20 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.2 MiB
最后更新	2025年5月1日
创建于	2025年5月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

专利文本语义相关性评估数据集PatentTextSemanticRelatednessEvaluation-datafan07

数据与资源

附加信息

注册成功！