数据2024年数据科学学生锦标赛专利摘要分类数据集-lokeshsgupta

2024年数据科学学生锦标赛专利摘要分类数据集-lokeshsgupta 数据来源:互联网公开数据 标签:专利,摘要,分类,EPO,欧洲专利局,机器学习,文本分析,数据科学,竞赛,标签

数据概述: 本数据集包含来自2024年数据科学学生锦标赛的专利摘要数据,共计59119条记录。每条记录包含一个专利摘要(Abstract)和对应的专利分类标签(Label)。

专利摘要是对专利技术方案的高度概括和总结,用于快速了解专利的核心内容。专利分类标签是根据欧洲专利局(EPO)的分类体系,对专利进行归类,方便检索和管理。

数据字段包括:

Abstract: 专利摘要,以文本形式呈现,是对专利内容的简要描述。 Label: 专利分类标签,表示专利所属的分类,共有9个类别。

数据用途概述: 该数据集主要用于数据科学领域的学习和实践,尤其适用于文本分类、机器学习模型训练等场景。具体应用包括但不限于:

文本分类模型训练:用于训练和评估基于专利摘要的文本分类模型,预测其所属的EPO分类。 算法竞赛:为数据科学竞赛提供数据,供参赛者构建、优化分类模型。 专利信息检索:用于构建专利信息检索系统,基于摘要快速定位相关专利。 教育研究:为学生提供真实世界的数据,帮助他们理解和掌握数据科学相关知识。 数据集的9个类别如下:

1 (人类生活必需品) 2 (实施操作; 运输) 3 (化学; 冶金) 4 (纺织; 纸张) 5 (固定结构) 6 (机械工程; 照明; 供热; 武器; 爆炸) 7 (物理) 8 (电力) 9 (新技术或跨领域技术的通用标记)

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 35.31 MiB
最后更新 2025年4月24日
创建于 2025年4月24日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。