烂番茄电影评论情感分析数据集1963-2021
数据来源:互联网公开数据
标签:电影评论,情感分析,自然语言处理,机器学习,文本分类
数据概述:
本数据集包含了来自烂番茄网站的5,331条正面和5,331条负面电影评论,总计10,662条评论记录。每条评论均已被处理,数据集中包含评论文本和对应的情感标签(正面或负面)。该数据集最初由Bo Pang和Lillian Lee在2005年的ACL论文《Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales》中使用。
数据用途概述:
该数据集适用于电影评论的情感分析、评论分类和文本挖掘等多种场景。研究人员可利用此数据评估不同情感分析系统的性能;开发人员可用于构建和训练情感分类模型;同时,该数据集也适合用于教育培训,帮助学习者掌握情感分析的基本方法和技术。
举例:
文件train.csv包含用于训练模型的评论数据,其中每条记录包含评论文本和对应的情感标签;文件validation.csv和test.csv则分别用于模型的验证和测试。例如,一条记录可能为:“text: 'The movie was fantastic, with stunning visuals and an engaging storyline.' label: 'positive'”,表示该评论为正面评价。