二元斯坦福情感树库数据集2

数据集概述

该数据集是斯坦福情感树库(SST)的二元版本,移除了中性类别,仅保留积极和消极两类情感标签。包含电影评论文本及其对应的二元情感分类数据,支持自然语言处理领域的情感分析任务。

文件详解

  • 文件名称: texts.txt
  • 文件格式: TXT
  • 内容: 文档集合,每行存储一条文本数据
  • 文件名称: score.txt
  • 文件格式: TXT
  • 内容: 文档类别标签,索引与texts.txt一一对应,标签值为0或1(0代表消极,1代表积极)
  • 文件名称: split_5.pkl
  • 文件格式: PKL
  • 内容: 五折交叉验证划分的pandas数据框
  • 文件名称: split_10.pkl
  • 文件格式: PKL
  • 内容: 十折交叉验证划分的pandas数据框
  • 文件名称: sst2.zip
  • 文件格式: ZIP
  • 内容: 数据集压缩包,包含上述所有文件

适用场景

  • 自然语言处理研究: 用于训练和评估二元情感分类模型
  • 文本情感分析: 分析电影评论中的情感倾向
  • 机器学习算法验证: 测试分类算法在情感分析任务上的性能
  • 交叉验证方法研究: 基于划分文件开展模型泛化能力评估
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 10.52 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。