武大等开源大幅面高清卫星影像数据集:涵盖21万+地理目标,复杂地理空间场景知识精准生成
还有配套工具包一同开源
武汉大学李彦胜课题组 投稿
量子位 | 公众号 QbitAI
AI卫星影像知识生成模型数据集稀缺的问题,又有新解了。
来自武汉大学、上海AI实验室、西工大等9家机构共同推出了该领域的大型数据集,涵盖了21万个地理目标和40万个目标-关系三元组。
而且像机场、港口、立交桥等这样复杂地理空间场景,也都包括在了数据集当中。
具体来说,该数据集名为RSG(0704更新:已改名STAR,下同),主要面向卫星影像中的目标检测(OBD)和场景图生成(SGG)任务。
SGG有助于促进模型对地理空间场景从感知到认知的智能理解,但一直缺乏大幅面、超高分辨率的卫星影像数据。
而RSG的出现很好地填补了这一空白,一同提出的还有基于上下文感知的逐级认知(CAC)框架,以及配套的SGG工具包。
有关论文已经在arXiv公开发布,相应的数据集和工具包也已经开源。
大幅面超高分辨率卫星影像数据集
在卫星影像(SAI)领域当中,场景图生成(SGG)技术可以促进对地理空间场景从感知到认知的智能理解。
在SAI中,地理目标的尺度和纵横比变化大,地理目标之间(甚至是空间不相交的地理目标之间)存在丰富的关联,这使得SGG有必要在大幅面超高分辨率卫星影像中整体进行。
然而现实情况是,大幅面超高分辨率卫星影像的SGG数据集比较缺乏,这无疑限制了SGG在SAI中的进展。
又由于大幅面超高分辨率卫星影像的复杂性,挖掘目标-关系三元组<目标1,关系,目标2>严重依赖于远程上下文推理,传统为小幅面自然图像设计的SGG模型,不能直接适用于大幅面卫星影像。
注:下图是大幅面超高分卫星影像中的SGG示意图,其中第一行分别展示了大幅面超高分卫星影像的目标检测和场景图生成结果,第二行为对应的局部细节展示。在第二行末尾图中,黑色箭头表示仅依赖于孤立目标对可预测的关系,而红色箭头表示需要借助上下文推断的复杂关系。
于是,为了解决数据集稀缺问题,研究团队构建了首个面向大幅面超高分卫星影像的大规模场景图生成数据集RSG。
该数据集影像幅面跨越512×768到27,860×31,096像素,包含超过21万个地理目标和超过40万个目标-关系三元组。
△RSG数据集中目标分布(a)和关系分布(b)统计
内容上,RSG收集了空间分辨率为0.15-1m范围的卫星影像,涵盖了全球范围内与人类活动密切相关的11类复杂地理空间情景。
这些场景包括机场、港口、核电站、火电站、风力发电站、水坝和服务区、立交桥、水面桥、施工工地和体育运动场景等。
△RSG数据集中影像采样的地理分布和示例
在遥感领域专家的指导下,研究团队将所有地理目标划分为48个细粒度类,并使用定向边界框(OBB)进行精确标注,所有关系按照8个大类、58个细粒度类进行标注。
提出上下文感知框架
为了进一步实现大幅面超高分卫星影像中的SGG,研究团队还提出了一个基于上下文感知的逐级认知(CAC)框架。
该框架从三个层面深入理解卫星影像——目标检测(OBD)、目标对剪枝和关系预测:
- 在目标检测上,团队提出了“能够灵活集成多尺度上下文的整体多类目标检测网络(HOD-Net)”,可以检测大幅面超高分辨率卫星影像中的目标;
- 在目标对剪枝方面,作者则设计了“基于对抗生成的候选对生成(PPG)网络”,来筛选包含高价值关系的目标对;
- 在关系预测任务中,团队又提出了“带有上下文感知消息传递(RPCM)的关系预测网络”来预测候选对的关系类型。
在RSG测试集上的结果表明,在目标检测任务中,无论是基于水平框(HBB)还是有向框(OBB)的检测器,团队提出的HOD-Net框架都取得了总成绩和多个单项的SOTA。
注释:
1.表格中,b_b为boarding_bridge, l_t表示lattice_tower, s_l为ship_lock, g_d为gravity_dam。
2.所有实验都基于标准的“1x”(12epochs)训练设置。
3.†表示主干网络为Swin-L,其他的主干网络都为ResNet50。
4.下划线表示下方的方法使用该模型作为基础检测器。
同时测试结果还表明,HOD-Net方法也优于一些其他的训练方式。
下面的图更加直观地展示了不同目标检测策略的可视化结果。
剪枝任务上,团队提出的PPG策略也在多个模型上运行的测试中超越了传统方法。
生成情景当中,团队设计的的RPCM网络在基于HBB和OBB检测器的所有指标上,同样优于先前的主流SGG方法。
下图是不同SGG模型在RSG数据集中情景生成结果的可视化展示。
此外,为了促进大幅面超高分辨率卫星影像中SGG的发展,研究团队还发布了面向大面超高分辨率卫星影像的SGG工具包(其中包含约30种OBD方法和10种SGG方法),并基于RSG数据集进行了的全面基准测试。
数据集和相关工具包都已开源,可到项目主页中了解详情。
论文地址:
https://arxiv.org/abs/2406.09410
项目主页:
https://linlin-dev.github.io/project/STAR
GitHub:
https://github.com/Zhuzi24/SGG-ToolKit
- ChatGPT深夜更新:Mac版支持“读屏编程”,Windows版全员可用了2024-11-15
- 李飞飞吴佳俊团队推出具身智能决策能力评价基准,o1-preview登顶2024-11-14
- 小度为何押注AI眼镜?2024-11-13
- o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍2024-11-12