专利文本分类与预测数据集PatentTextClassificationandPredictionDataset-gunparksom
数据来源:互联网公开数据
标签:专利, 文本分类, 机器学习, 自然语言处理, 专利检索, 专利分析, 韩国专利, 深度学习
数据概述:
该数据集包含来自韩国专利局的专利文本数据,用于训练和评估专利文本分类和预测模型。主要特征如下:
时间跨度:数据未明确标注具体时间,但涵盖了特定时间段内的韩国专利申请。
地理范围:数据主要涉及韩国专利,涵盖了韩国的专利申请信息。
数据维度:
train.csv: 包含用于训练的数据,包括专利的documentId, invention_title(发明名称), abstract(摘要), claims(权利要求)以及SSnos(分类号)。
test_input.csv: 包含用于测试的数据,包括专利的documentId, invention_title, abstract, claims。
category.csv: 包含专利分类信息,如SSno, SStext, Sno, Stext, Mno, Mtext, Lno, Ltext, LLno, LLtext,用于构建分类体系。
pred.yaml, preprocess.yaml, train.yaml, 5epoch_0.12.bin:包含模型预测结果、预处理配置和模型训练配置以及模型文件。
数据格式:数据主要为CSV和YAML格式,CSV文件包含结构化的文本数据,YAML文件包含模型的配置信息。
该数据集适用于专利文本分析、分类、预测等任务,可用于构建专利检索系统、技术趋势分析和竞争情报分析。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、机器学习、专利信息分析等领域的学术研究,例如专利文本分类、专利检索、技术领域趋势分析等。
行业应用:为知识产权行业提供数据支持,特别是在专利审查、专利分析、技术情报分析等领域。
决策支持:支持企业进行技术研发方向的决策,评估竞争对手的技术布局,进行专利组合管理等。
教育和培训:作为自然语言处理、机器学习和专利分析等课程的实训材料,帮助学生和研究人员了解专利文本的特点,掌握相关的分析方法和技术。
此数据集特别适合用于探索专利文本的结构化信息与分类之间的关系,构建准确的专利分类模型,并实现对专利信息的有效检索和分析,从而提升决策效率和创新能力。