汽车与酒店评论情感分析数据集-2007至2009年-memoonashah
数据来源:互联网公开数据
标签:汽车评论,酒店评论,情感分析,机器学习,自然语言处理,UCI数据集,OpinRank
数据概述:
本数据集来源于2011年由Ganesan, Kavita和Zhai, ChengXiang编纂的OpinRank Review Dataset,包含汽车评论和酒店评论两大类别的数据。汽车评论部分包括约42,230条记录,涵盖2007年至2009年间不同车型的评论;酒店评论部分包含约259,000条记录,涵盖了迪拜、纽约和伦敦等10个城市的酒店评价。数据包含日期、作者、收藏数、评论标题和完整文本等字段,为情感分析研究提供了丰富的数据资源。
数据用途概述:
该数据集适用于情感分析、自然语言处理和机器学习研究领域。研究人员可以利用此数据集进行文本分类、情感倾向识别、用户反馈分析等多种应用场景。数据集经过处理并转换为易于使用的CSV格式,配有详细的Jupyter notebooks和Python脚本,支持多种机器学习模型和特征表示技术的开发和评估。结果和分析报告可供参考和学习,适用于学术研究、商业决策支持和教育培训等场景。
详细信息:
汽车评论数据包含以下字段:日期、作者、收藏数、完整文本评论。数据按车型年份(2007、2008、2009)组织。
酒店评论数据包含以下字段:日期、评论标题、完整文本评论。数据涵盖了迪拜、纽约、伦敦等10个城市的酒店评价。
数据处理包括将原始数据转换为CSV文件格式,便于使用和分析。项目中使用了多种机器学习模型,包括朴素贝叶斯、逻辑回归和随机森林,并采用CountVectorizer和TF-IDF进行特征表示。情感标注技术采用了Vader词典、Afinn词典和TextBlob库。评估指标包括F1分数和准确性,以比较不同模型的效果。
数据集和相关代码可以在项目仓库中获取。原始数据集可以访问此处:https://doi.org/10.24432/C5QW4W。项目中处理后的CSV文件可以在'data'目录中找到,代码和模型在'code'目录中,结果和分析报告在'results'目录中。
请注意,使用本数据集时请确保遵守原始数据集创建者的许可条款,并给予适当引用。