BERT768维嵌入文章数据集

BERT768维嵌入文章数据集 数据来源:互联网公开数据
标签:BERT, 自然语言处理, 文章嵌入, COVID-19研究, 文本分析, 机器学习, 深度学习

数据概述:
本数据集包含了从COVID-19开放研究数据集挑战(CORD-19)中提取的27,648篇文章的BERT 768维嵌入表示。这些文章经过处理,生成了BERT模型的768维向量表示,用于捕捉文本的语义信息。需要注意的是,数据集中第一行是错误保存的索引,实际BERT表示的列数应为768而非769。

数据用途概述:
该数据集适用于多种自然语言处理任务和文本分析研究,包括但不限于文本挖掘、情感分析、信息检索和机器学习模型训练。研究人员可以利用这些嵌入表示进行文本分类、聚类分析或生成模型的预训练。此外,数据集也可用于学术研究和工业应用中的文本理解任务,为相关领域的模型开发和算法优化提供基础支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 185.68 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。