女性电商服装评论数据集2021-nhiyen
数据来源:互联网公开数据
标签:电商,服装,评论,自然语言处理,特征工程,情感分析,NLP,多变量分析
数据概述:
本数据集包含23486条记录,每条记录代表一位顾客对某件女装的评论。数据集来源于真实的商业来源,并进行了匿名处理,任何提及零售商的信息均被替换为“retailer”。数据集包含10个特征变量,这些变量可以从多个角度分析评论文本,适用于自然语言处理、特征工程和多变量分析等场景。
数据特征包括:
Clothing ID(服装ID):一个整数类别变量,表示被评论的具体服装。
Age(年龄):一个正整数变量,表示评论者的年龄。
Title(标题):一个字符串变量,表示评论的标题。
Review Text(评论文本):一个字符串变量,表示评论的正文。
Rating(评分):一个正序数整数变量,表示顾客对产品的评分,范围从1(最差)到5(最佳)。
Recommended IND(推荐标志):一个二元变量,表示顾客是否推荐该产品,1表示推荐,0表示不推荐。
Positive Feedback Count(正面反馈数):一个正整数变量,表示其他顾客认为该评论为正面的次数。
Division Name(产品大类):一个类别名称,表示产品的高层次分类。
Department Name(产品部门):一个类别名称,表示产品所属的部门。
Class Name(产品类别):一个类别名称,表示产品的具体类别。
数据用途概述:
该数据集适用于多种分析和研究场景,如电商评论的情感分析、推荐系统评估、NLP模型训练等。研究者可以利用此数据集进行自然语言处理任务,如情感分类、意见挖掘等;企业可以利用此数据集改进产品推荐策略;学者可以利用此数据集进行特征工程研究,探索影响产品评价的因素。此外,该数据集也适合用于教育培训,帮助学习者理解电商评论数据的处理和分析方法。相关研究结果发表在论文《使用双向循环神经网络进行电商评论的情感分类的统计分析》中。