电影剧情文本向量化数据集-3-5万部电影剧情向量数据-linhhlp
数据来源:互联网公开数据
标签:电影,剧情,文本向量化,自然语言处理,向量搜索,机器学习,推荐系统,电影分析
数据概述:
本数据集包含3.5万部电影的剧情摘要,并经过向量化处理。原始剧情文本来源于维基百科,由用户jrobischon抓取,并由gabrieltardochi使用DistilBART-CNN-12-6模型进行摘要生成。数据集提供了两种剧情文本:完整剧情和摘要剧情。使用Cohere AI将两种剧情文本分别转化为1024维的向量。
数据包括以下字段:
plot_vector_1024:完整剧情的1024维向量(由1024个浮点数组成的向量)
plot_summary_vector_1024:摘要剧情的1024维向量(由1024个浮点数组成的向量)
数据集的详细处理过程可在GitHub上找到:https://github.com/linhhlp/Machine-Learning-Applications/Text-2-Vect-Vector-Search
数据用途概述:
该数据集主要用于文本向量化相关的研究与应用,例如:电影推荐系统、电影剧情相似度分析、基于剧情的电影搜索、文本聚类分析等。研究人员可以使用该数据集进行向量搜索实验,探索不同向量化方法对文本相似度计算的影响;开发者可以利用该数据构建电影推荐系统,基于剧情相似度向用户推荐电影;同时,该数据集也适用于自然语言处理、机器学习等相关领域的教学和研究。