数据集

电影剧情文本向量化数据集-3-5万部电影剧情向量数据-linhhlp

电影剧情文本向量化数据集-3-5万部电影剧情向量数据-linhhlp 数据来源：互联网公开数据标签：电影,剧情,文本向量化,自然语言处理,向量搜索,机器学习,推荐系统,电影分析数据概述：本数据集包含3.5万部电影的剧情摘要，并经过向量化处理。原始剧情文本来源于维基百科，由用户jrobischon抓取，并由gabrieltardochi使用DistilBART-CNN-12-6模型进行摘要生成。数据集提供了两种剧情文本：完整剧情和摘要剧情。使用Cohere AI将两种剧情文本分别转化为1024维的向量。数据包括以下字段： plot_vector_1024：完整剧情的1024维向量（由1024个浮点数组成的向量） plot_summary_vector_1024：摘要剧情的1024维向量（由1024个浮点数组成的向量）数据集的详细处理过程可在GitHub上找到：https://github.com/linhhlp/Machine-Learning-Applications/Text-2-Vect-Vector-Search

数据用途概述：该数据集主要用于文本向量化相关的研究与应用，例如：电影推荐系统、电影剧情相似度分析、基于剧情的电影搜索、文本聚类分析等。研究人员可以使用该数据集进行向量搜索实验，探索不同向量化方法对文本相似度计算的影响；开发者可以利用该数据构建电影推荐系统，基于剧情相似度向用户推荐电影；同时，该数据集也适用于自然语言处理、机器学习等相关领域的教学和研究。

数据与资源

versions_20250403004443.zipZIP
278.34 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	278.34 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

电影剧情文本向量化数据集-3-5万部电影剧情向量数据-linhhlp

数据与资源

附加信息

注册成功！