扫码关注量子位
首次将推理战场从文本空间拓展到像素空间
构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器
首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准
多视图理解推理有新的评判标准了
首个MLLM+DiT架构开源图像编辑模型来了
多模态大模型的真实“空间智商”究竟如何
只需拍一张图,小布助手就可以精准识别并理解图像中蕴含的信息
百万上下文+原生多模态
基于动态强化学习
GPT-4o原生多模态图像生成更多玩法被开发出来
创造性引入规则化奖励函数机制
算法能够以极低成本持续生成多样化且高质量的多模态三元组
推理次数>30时,模型表现趋于稳定
助力政企极速落地AI应用与创意灵感,让AI技术精细化满足真实业务场景,加速AI普惠落地。
不卷数据不烧卡
明星模型BLIP之父
“多模态大模型已具备跨模态穿透和融合的感知能力”
7B击败了DALL-E 3和Stable Diffusion