数据集

BERT768维嵌入文章数据集

BERT768维嵌入文章数据集数据来源：互联网公开数据
标签：BERT, 自然语言处理, 文章嵌入, COVID-19研究, 文本分析, 机器学习, 深度学习

数据概述：
本数据集包含了从COVID-19开放研究数据集挑战（CORD-19）中提取的27,648篇文章的BERT 768维嵌入表示。这些文章经过处理，生成了BERT模型的768维向量表示，用于捕捉文本的语义信息。需要注意的是，数据集中第一行是错误保存的索引，实际BERT表示的列数应为768而非769。

数据用途概述：
该数据集适用于多种自然语言处理任务和文本分析研究，包括但不限于文本挖掘、情感分析、信息检索和机器学习模型训练。研究人员可以利用这些嵌入表示进行文本分类、聚类分析或生成模型的预训练。此外，数据集也可用于学术研究和工业应用中的文本理解任务，为相关领域的模型开发和算法优化提供基础支持。

数据与资源

BERT768维嵌入文章数据集.zipZIP
185.68 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	185.68 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

BERT768维嵌入文章数据集

数据与资源

附加信息

注册成功！