汽车与酒店评论情感分析数据集-2007至2009年-memoonashah

汽车与酒店评论情感分析数据集-2007至2009年-memoonashah 数据来源:互联网公开数据 标签:汽车评论,酒店评论,情感分析,机器学习,自然语言处理,UCI数据集,OpinRank

数据概述: 本数据集来源于2011年由Ganesan, Kavita和Zhai, ChengXiang编纂的OpinRank Review Dataset,包含汽车评论和酒店评论两大类别的数据。汽车评论部分包括约42,230条记录,涵盖2007年至2009年间不同车型的评论;酒店评论部分包含约259,000条记录,涵盖了迪拜、纽约和伦敦等10个城市的酒店评价。数据包含日期、作者、收藏数、评论标题和完整文本等字段,为情感分析研究提供了丰富的数据资源。

数据用途概述: 该数据集适用于情感分析、自然语言处理和机器学习研究领域。研究人员可以利用此数据集进行文本分类、情感倾向识别、用户反馈分析等多种应用场景。数据集经过处理并转换为易于使用的CSV格式,配有详细的Jupyter notebooks和Python脚本,支持多种机器学习模型和特征表示技术的开发和评估。结果和分析报告可供参考和学习,适用于学术研究、商业决策支持和教育培训等场景。

详细信息: 汽车评论数据包含以下字段:日期、作者、收藏数、完整文本评论。数据按车型年份(2007、2008、2009)组织。

酒店评论数据包含以下字段:日期、评论标题、完整文本评论。数据涵盖了迪拜、纽约、伦敦等10个城市的酒店评价。

数据处理包括将原始数据转换为CSV文件格式,便于使用和分析。项目中使用了多种机器学习模型,包括朴素贝叶斯、逻辑回归和随机森林,并采用CountVectorizer和TF-IDF进行特征表示。情感标注技术采用了Vader词典、Afinn词典和TextBlob库。评估指标包括F1分数和准确性,以比较不同模型的效果。

数据集和相关代码可以在项目仓库中获取。原始数据集可以访问此处:https://doi.org/10.24432/C5QW4W。项目中处理后的CSV文件可以在'data'目录中找到,代码和模型在'code'目录中,结果和分析报告在'results'目录中。

请注意,使用本数据集时请确保遵守原始数据集创建者的许可条款,并给予适当引用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 153.96 MiB
最后更新 2025年5月5日
创建于 2025年5月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。