政治错误信息的多语言多模态文本与图像语料库数据集

数据集概述

该数据集是为政治错误信息检测研究设计的多语言多模态语料库,包含图像目录与文本表格两部分。图像按主题分类存储于真实/虚假子目录,文本以Excel表格记录新闻标题、来源、内容及真伪标签,支持跨模态学习与模型训练。

文件详解

  • 压缩文件:
  • Dataset.zip: 压缩格式,包含数据集全部内容,具体文件结构需解压后查看
  • 内部结构(根据描述):
  • 图像目录: 按主题分类的文件夹,内有"真实"和"虚假"子目录存储对应标注图像
  • 文本文件: 单张Excel表格,包含标题、来源、完整新闻报道、真实/虚假标签四列

适用场景

  • 虚假新闻检测模型训练: 用于构建同时分析文本(标题、内容)与图像(真实性)的多模态检测模型
  • 政治信息可信度研究: 分析不同来源、模态的政治信息真伪特征
  • 多语言错误信息特征分析: 探索多语言环境下政治错误信息的语言与视觉共性
  • 跨模态信息融合研究: 开展文本与图像信息融合的机器学习算法研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 254.92 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。