2024年数据科学学生锦标赛专利摘要分类数据集-lokeshsgupta
数据来源:互联网公开数据
标签:专利,摘要,分类,EPO,欧洲专利局,机器学习,文本分析,数据科学,竞赛,标签
数据概述:
本数据集包含来自2024年数据科学学生锦标赛的专利摘要数据,共计59119条记录。每条记录包含一个专利摘要(Abstract)和对应的专利分类标签(Label)。
专利摘要是对专利技术方案的高度概括和总结,用于快速了解专利的核心内容。专利分类标签是根据欧洲专利局(EPO)的分类体系,对专利进行归类,方便检索和管理。
数据字段包括:
Abstract: 专利摘要,以文本形式呈现,是对专利内容的简要描述。
Label: 专利分类标签,表示专利所属的分类,共有9个类别。
数据用途概述:
该数据集主要用于数据科学领域的学习和实践,尤其适用于文本分类、机器学习模型训练等场景。具体应用包括但不限于:
文本分类模型训练:用于训练和评估基于专利摘要的文本分类模型,预测其所属的EPO分类。
算法竞赛:为数据科学竞赛提供数据,供参赛者构建、优化分类模型。
专利信息检索:用于构建专利信息检索系统,基于摘要快速定位相关专利。
教育研究:为学生提供真实世界的数据,帮助他们理解和掌握数据科学相关知识。
数据集的9个类别如下:
1 (人类生活必需品)
2 (实施操作; 运输)
3 (化学; 冶金)
4 (纺织; 纸张)
5 (固定结构)
6 (机械工程; 照明; 供热; 武器; 爆炸)
7 (物理)
8 (电力)
9 (新技术或跨领域技术的通用标记)