多模态

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

首次将推理战场从文本空间拓展到像素空间

梦晨 2025-06-09

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器

梦晨 2025-06-09

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准

白交 2025-06-07

GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

多模态大模型的真实“空间智商”究竟如何

OPPO 旗舰新机 Find X8 Ultra 首发“一键闪记”,阶跃星辰多模态提供技术支持

只需拍一张图,小布助手就可以精准识别并理解图像中蕴含的信息

“计算机视觉被GPT-4o终结了”(狗头)

GPT-4o原生多模态图像生成更多玩法被开发出来

梦晨 2025-03-29

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

算法能够以极低成本持续生成多样化且高质量的多模态三元组

中科闻歌发布智川X-Agent平台、优雅音视频大模型更新

助力政企极速落地AI应用与创意灵感,让AI技术精细化满足真实业务场景,加速AI普惠落地。

明敏 2025-02-23