"多模态"最新资讯

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

首次将推理战场从文本空间拓展到像素空间

梦晨 2025-06-09

多模态

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器

梦晨 2025-06-09

多模态

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

首个聚焦于高分辨率交通图（主要为地铁图）的多模态推理评测基准

白交 2025-06-07

多模态

GPT-4o不敌Qwen，无一模型及格！UC伯克利港大等提出多模态新基准

多视图理解推理有新的评判标准了

白交 2025-05-14

多模态

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

闻乐 2025-05-08

多模态

图像编辑开源新SOTA，来自多模态卷王阶跃！大模型行业正步入「多模态时间」

首个MLLM+DiT架构开源图像编辑模型来了

衡宇 2025-04-28

多模态开源阶跃星辰

UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成！

闻乐 2025-04-25

图像生成多模态

GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

多模态大模型的真实“空间智商”究竟如何

白交 2025-04-23

多模态空间智能

OPPO 旗舰新机 Find X8 Ultra 首发“一键闪记”，阶跃星辰多模态提供技术支持

只需拍一张图，小布助手就可以精准识别并理解图像中蕴含的信息

量子位 2025-04-22

OPPO 多模态阶跃星辰

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

百万上下文+原生多模态

衡宇 2025-04-06

LLaMA Meta 多模态开源

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

基于动态强化学习

一水 2025-03-30

OPPO 多模态强化学习

“计算机视觉被GPT-4o终结了”（狗头）

GPT-4o原生多模态图像生成更多玩法被开发出来

梦晨 2025-03-29

多模态

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

创造性引入规则化奖励函数机制

梦晨 2025-03-20

多模态

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

算法能够以极低成本持续生成多样化且高质量的多模态三元组

白交 2025-03-07

合成数据多模态智源

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

推理次数>30时，模型表现趋于稳定

衡宇 2025-02-23

多模态

中科闻歌发布智川X-Agent平台、优雅音视频大模型更新

助力政企极速落地AI应用与创意灵感，让AI技术精细化满足真实业务场景，加速AI普惠落地。

明敏 2025-02-23

Agent 多模态

Llama模仿Diffusion多模态涨分30%！只需共享注意力分布

不卷数据不烧卡

一水 2025-02-17

多模态

全球顶级AI科学家许主洪加盟阿里！IEEE Fellow，五万被引论文数，曾任Salesforce集团副总裁

明星模型BLIP之父

白交 2025-02-07

多模态许志洪阿里

多模态版DeepSeek-R1：评测表现超GPT-4o，模态穿透反哺文本推理能力！北大港科大出品，已开源

“多模态大模型已具备跨模态穿透和融合的感知能力”

衡宇 2025-02-06

DeepSeek R1 北大多模态港科大

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型

7B击败了DALL-E 3和Stable Diffusion

白交 2025-01-28

Deepseek 多模态英伟达

多模态

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

GPT-4o不敌Qwen，无一模型及格！UC伯克利港大等提出多模态新基准

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

图像编辑开源新SOTA，来自多模态卷王阶跃！大模型行业正步入「多模态时间」

UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成！

GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

OPPO 旗舰新机 Find X8 Ultra 首发“一键闪记”，阶跃星辰多模态提供技术支持

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

“计算机视觉被GPT-4o终结了”（狗头）

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

中科闻歌发布智川X-Agent平台、优雅音视频大模型更新

Llama模仿Diffusion多模态涨分30%！只需共享注意力分布

全球顶级AI科学家许主洪加盟阿里！IEEE Fellow，五万被引论文数，曾任Salesforce集团副总裁

多模态版DeepSeek-R1：评测表现超GPT-4o，模态穿透反哺文本推理能力！北大港科大出品，已开源

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型

热门文章

苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3/DeepSeek高难度全崩溃

腾讯顶尖学生招募启动！高中生可直接参与大模型/具身智能前沿研究

强化学习之父：LLM主导只是暂时，扩展计算才是正解

太逼真！豆包·播客模型来了：一句话生成「苏超联赛」播客，很懂13太保的梗

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」