数据集概述
本数据集是围绕中国AIGC技术演进与发展趋势分析的基础资料,包含通过BERTopic和LSTM模型分析所需的原始及整理后数据,涵盖专利申请、文本、嵌入向量等多类型文件,为研究AIGC技术发展脉络提供数据支持。
文件详解
该数据集包含9个文件,具体说明如下:
- Excel数据文件(.xlsx格式,共5个):
- 画图数据.xlsx:用于图表绘制的结构化数据文件
- 各年专利申请数据.xlsx:记录不同年份专利申请情况的数据集
- VOS数据.xlsx:可能用于VOS可视化分析的相关数据
- 源数据.xlsx:原始或基础数据源文件
- excel2024-09-02-14-44-58(SCSRGZN-CN).xlsx:带日期标识的Excel数据文件
- 文本文件(.txt格式,共3个):
- 时间.txt:包含时间相关文本内容的文件
- 切词.txt:可能包含文本分词处理结果的文件
- 文本.txt:原始或整理后的文本内容文件
- 科学数据文件(.npy格式,共1个):
- embedding_bbc.npy:可能为文本嵌入向量数据文件,用于模型训练或分析
适用场景
- AIGC技术发展研究:分析中国AIGC技术的演进历程与趋势
- 专利数据分析:探究AIGC领域专利申请的年度变化规律
- 自然语言处理应用:基于文本数据和嵌入向量开展主题建模(如BERTopic)或序列分析(如LSTM)
- 技术可视化研究:利用画图数据和VOS数据进行AIGC技术发展的可视化呈现