推特名人推文嵌入数据集

推特名人推文嵌入数据集 数据来源:互联网公开数据
标签:推特,名人,自然语言处理,文本嵌入,社交媒体分析,机器学习,数据科学

数据概述:
本数据集包含了推特平台上排名前1000位知名名人账户的推文及其对应的文本嵌入向量。数据集共包含915位名人用户的推文,推文内容通过tweepy(Python语言的Twitter API封装工具)抓取。数据集还包括一个CSV文件,其中存储了所有推文的嵌入向量,使用sentence-transformers预训练的多语言模型(paraphrase-multilingual-MiniLM-L12-v2)生成。推文经过预处理后,生成了对应的嵌入向量,每行代表一位用户的嵌入信息。

数据用途概述:
该数据集适用于多种场景,包括名人推文分析、情感分析、文本相似度计算、推荐系统开发以及自然语言处理模型训练等。研究人员可以利用此数据集进行名人推文内容分析,探索名人影响力与推文内容之间的关系;开发者可以将其用于构建名人推荐系统或情感分析工具;此外,该数据集还可作为NLP模型训练的基础数据,帮助提升模型在社交媒体文本处理方面的性能。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 167.87 MiB
最后更新 2025年4月27日
创建于 2025年4月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。