MPQA_Multi_Perspective_Question_Answering_观点极性检测不平衡数据集

数据集概述

本数据集为多视角问答(MPQA)观点极性检测任务的不平衡数据集,包含来自多个来源的新闻文档,被分类为正面和负面两类。数据集提供文档文本、对应类别标签及交叉验证划分文件,支持自然语言处理领域的观点极性检测研究。

文件详解

  • texts.txt
  • 文件格式:TXT
  • 字段映射介绍:包含新闻文档集合,每行对应一个文档文本
  • score.txt
  • 文件格式:TXT
  • 字段映射介绍:包含文档类别标签,索引与texts.txt中的文档一一对应
  • split_.pkl(如split_10.pkl、split_5.pkl)
  • 文件格式:PKL
  • 字段映射介绍:pandas DataFrame格式的k折交叉验证划分文件,共5个
  • mpqa.zip
  • 文件格式:ZIP
  • 字段映射介绍:数据集压缩包,包含上述文件

适用场景

  • 观点极性检测模型训练与评估: 用于训练和测试自然语言处理模型对文本观点极性(正面/负面)的分类能力
  • 不平衡数据集处理研究: 针对数据不平衡特性,探索类别不平衡场景下的模型优化方法
  • 交叉验证策略验证: 利用k折交叉验证划分文件,评估模型泛化能力
  • 新闻文本情感分析: 分析新闻文档中的观点倾向,支持媒体舆情研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.6 MiB
最后更新 2025年12月29日
创建于 2025年12月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。