数据集

推特名人推文嵌入数据集

推特名人推文嵌入数据集数据来源：互联网公开数据
标签：推特,名人,自然语言处理,文本嵌入,社交媒体分析,机器学习,数据科学

数据概述：
本数据集包含了推特平台上排名前1000位知名名人账户的推文及其对应的文本嵌入向量。数据集共包含915位名人用户的推文，推文内容通过tweepy（Python语言的Twitter API封装工具）抓取。数据集还包括一个CSV文件，其中存储了所有推文的嵌入向量，使用sentence-transformers预训练的多语言模型（paraphrase-multilingual-MiniLM-L12-v2）生成。推文经过预处理后，生成了对应的嵌入向量，每行代表一位用户的嵌入信息。

数据用途概述：
该数据集适用于多种场景，包括名人推文分析、情感分析、文本相似度计算、推荐系统开发以及自然语言处理模型训练等。研究人员可以利用此数据集进行名人推文内容分析，探索名人影响力与推文内容之间的关系；开发者可以将其用于构建名人推荐系统或情感分析工具；此外，该数据集还可作为NLP模型训练的基础数据，帮助提升模型在社交媒体文本处理方面的性能。

数据与资源

推特名人推文嵌入数据集.zipZIP
167.87 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	167.87 MiB
最后更新	2025年4月27日
创建于	2025年4月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

推特名人推文嵌入数据集

数据与资源

附加信息

注册成功！