亚马逊商品评论情感二元分类数据集-商品评论-2019
数据来源:互联网公开数据
标签:亚马逊,商品评论,情感分析,文本分类,自然语言处理,机器学习,情感极性,负面评价,正面评价
数据概述:
本数据集包含来自亚马逊的商品评论数据,用于情感二元分类任务。数据集将评论评分为1和2的样本标记为负面评价,评分为4和5的样本标记为正面评价,忽略评分为3的样本。数据集中,类别1代表负面评价,类别2代表正面评价。训练集和测试集分别包含1,800,000个样本和200,000个样本。
数据集文件train.csv和test.csv以逗号分隔值(CSV)格式存储。每个文件包含3列,分别对应:类别索引(1或2,代表负面或正面评价)、评论标题、评论文本。评论标题和文本使用双引号(")进行转义,内部的双引号通过两个双引号("")进行转义。换行符通过反斜杠后跟一个“n”字符(即“\n”)进行转义。
数据用途概述:
该数据集主要用于自然语言处理和机器学习领域的情感分析研究。研究人员可以利用此数据集训练情感分类模型,进行情感极性预测;开发商品评论分析工具,帮助用户了解商品评价趋势;也可以用于探索文本特征提取、模型优化等技术。此外,该数据集也适用于教学和实践,为学习者提供了一个真实的、大规模的文本数据资源,帮助他们理解情感分析的流程和方法。