数据集概述
本数据集来自RadioTalk平台,包含Radio Galaxy Zoo公民科学项目参与者对射电天体的讨论、标签及评论数据,是复杂扩展射电源形态识别的辅助信息。首次结合文本与图像采用多模态学习自动分类射电星系,发现文本特征可提升分类性能,还包含RGZ-DR1目录外超一万个新射电源,共3个文件。
文件详解
- 训练数据文件
- 文件名称:data_train.zip
- 文件格式:ZIP
- 字段映射介绍:未提供具体字段信息,为训练用的射电天体相关文本与图像多模态数据压缩包
- 测试数据文件
- 文件名称:data_test.zip
- 文件格式:ZIP
- 字段映射介绍:未提供具体字段信息,为测试用的射电天体相关文本与图像多模态数据压缩包
- 验证数据文件
- 文件名称:data_val.zip
- 文件格式:ZIP
- 字段映射介绍:未提供具体字段信息,为验证用的射电天体相关文本与图像多模态数据压缩包
数据来源
论文“Radio Galaxy Zoo: Tagging Radio Subjects using Text”
适用场景
- 射电星系形态自动分类: 利用文本与图像多模态数据训练分类模型,提升复杂射电源形态识别准确率
- 公民科学数据价值挖掘: 分析参与者标签与评论对天文数据分类的辅助作用,探索多模态信息融合路径
- 射电天体新源发现: 基于数据集包含的新射电源信息,开展未知射电天体的后续观测与研究
- 多模态学习在天文学的应用: 验证文本+图像多模态学习方法在射电天文学领域的可行性与效果