MyAnimeList动漫用户评分与推荐数据集-2023年-dsfelix

MyAnimeList动漫用户评分与推荐数据集-2023年-dsfelix 数据来源:互联网公开数据 标签:动漫,MyAnimeList,MAL,用户,评分,动漫列表,推荐系统,动漫数据

数据概述: 本数据集包含了2023年8月1日至10月6日期间,从MyAnimeList(MAL)网站抓取、整理的动漫相关数据,包括动漫列表、用户资料、用户评分以及推荐系统基准测试结果。数据集主要分为四个部分:动漫信息、用户资料、用户评分和推荐系统性能评估。所有数据均通过Python编程语言和anime-data-scrapper工具获取。

数据用途概述: 该数据集适用于动漫爱好者、数据分析师、研究人员以及机器学习工程师,用于动漫趋势分析、用户行为研究、个性化推荐系统开发、算法性能评估等多种场景。用户可以利用此数据分析动漫的受欢迎程度、用户评分分布、动漫类型与用户偏好的关系;开发和测试动漫推荐算法,提升推荐的准确性和用户体验;研究用户在MyAnimeList平台上的行为模式,例如观看历史、评分习惯等。

具体数据集说明:

  1. anime-dataset-2023.csv:动漫列表数据集

    • Anime ID:MyAnimeList上的动漫ID
    • Name:动漫的原始名称
    • English Name:动漫的英文名称
    • Other Name:动漫的日文名称
    • Score:加权/贝叶斯平均评分(详情请参考“MyAnimeList评分是如何计算的?”)
    • Genres:相关动漫类型
    • Synopsis:简要描述
    • Type:动画类型(电影、动漫、OVA等)
    • Episodes:剧集数。电影被认为有1集
    • Aired:动漫播出时间段
    • Premiered:动漫发布季
    • Status:当前状态(播出中、停播、已完结等)
    • Producers:相关制作公司
    • Licensors:相关流媒体平台和授权方
    • Studios:相关动画工作室
    • Source:动漫的来源(漫画、轻小说、电影或电视)
    • Duration:电影或每集的持续时间
    • Rating:年龄限制
    • Rank:在MyAnimeList网站上的排名(基于评分标准)
    • Popularity:在MyAnimeList上的受欢迎程度排名
    • Favorites:将动漫标记为“收藏”的用户数量
    • Scored By:对动漫进行评分的用户数量
    • Members:将动漫添加到观看列表的用户数量
    • Image Url:横幅图片链接
  2. users-details-2023.csv:用户资料数据集

    • Mal ID:用户ID
    • Username:昵称
    • Gender:用户性别
    • Birthday:生日
    • Location:用户所在地点或国家
    • Joined:在MyAnimeList平台上的加入日期(ISO格式)
    • Days Watched:用户在MyAnimeList上花费的总天数
    • Mean Score:用户为其观看的动漫给出的平均评分
    • Watching:用户当前正在观看的动漫数量
    • Completed:用户已完成的动漫数量
    • On Hold:用户停止观看但保留在其列表中的动漫数量
    • Dropped:用户停止观看并从其列表中删除的动漫数量
    • Plan to Watch:用户已添加到列表但尚未开始观看的动漫数量
    • Total Entries:用户列表中的动漫总数
    • Rewatched:重新观看的动漫数量
    • Episodes Watched:从所有动漫中观看的剧集数量
  3. users-score-2023.csv:用户评分数据集

    • User ID:MyAnimeList平台上的用户ID
    • Username:昵称
    • Anime ID:MyAnimeList平台上的动漫ID
    • Anime Title:动漫的原始名称
    • Rating:用户对动漫的评分
  4. ./benchmark/full-benchmark.csv:推荐系统算法性能数据集

    • Iteration:迭代运行次数
    • Algorithm:过滤推荐和数据基础方法
    • Execution Time:执行时间(秒)
    • Average CPU Usage:迭代期间的平均CPU使用率(百分比)
    • Minimum CPU Usage:迭代期间的最低CPU使用率(百分比)
    • Maximum CPU Usage:迭代期间的最高CPU使用率(百分比)
    • Average RAM Usage:迭代期间的平均RAM使用率(百分比)
    • Minimum RAM Usage:迭代期间的最低RAM使用率(百分比)
    • Maximum RAM Usage:迭代期间的最高RAM使用率(百分比)

其他数据集: 所有其他数据集均由上述三个数据集创建。

致谢: 感谢Sajid提供了2023年动漫数据集,这启发了整个数据集的创建。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 603.93 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。