电影剧情文本向量化数据集-3-5万部电影剧情向量数据-linhhlp

电影剧情文本向量化数据集-3-5万部电影剧情向量数据-linhhlp 数据来源:互联网公开数据 标签:电影,剧情,文本向量化,自然语言处理,向量搜索,机器学习,推荐系统,电影分析 数据概述: 本数据集包含3.5万部电影的剧情摘要,并经过向量化处理。原始剧情文本来源于维基百科,由用户jrobischon抓取,并由gabrieltardochi使用DistilBART-CNN-12-6模型进行摘要生成。数据集提供了两种剧情文本:完整剧情和摘要剧情。使用Cohere AI将两种剧情文本分别转化为1024维的向量。 数据包括以下字段: plot_vector_1024:完整剧情的1024维向量(由1024个浮点数组成的向量) plot_summary_vector_1024:摘要剧情的1024维向量(由1024个浮点数组成的向量) 数据集的详细处理过程可在GitHub上找到:https://github.com/linhhlp/Machine-Learning-Applications/Text-2-Vect-Vector-Search

数据用途概述: 该数据集主要用于文本向量化相关的研究与应用,例如:电影推荐系统、电影剧情相似度分析、基于剧情的电影搜索、文本聚类分析等。研究人员可以使用该数据集进行向量搜索实验,探索不同向量化方法对文本相似度计算的影响;开发者可以利用该数据构建电影推荐系统,基于剧情相似度向用户推荐电影;同时,该数据集也适用于自然语言处理、机器学习等相关领域的教学和研究。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 16:55 (UTC)
创建于 五月 31, 2025, 16:54 (UTC)