"多模态"最新资讯 | 量子位

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

大模型最佳表现不及人类一半

衡宇 15小时前

多模态李飞飞视频评测数据集

值得买科技与人大高瓴人工智能学院首个多模态领域联合研究成果亮相CNCC2024

提升AIGC内容生成尤其是声音生成方面的质量和智能化水平

梦晨 2024-10-25

多模态

Ilya观点得证！仅靠预测下一个token统一图像文本视频，智源发布原生多模态世界模型Emu3

开启多模态AI新范式

梦晨 2024-10-21

多模态智源研究院

Llama系列上新多模态！3.2版本开源超闭源，还和Arm联手搞了手机优化版

Llama含金量还在上升

鱼羊 2024-09-26

LLaMA 多模态

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

大模型重构一切，出海电商已经率先感受到了

鱼羊 2024-09-19

出海电商多模态阿里国际

一张图实现街道级定位，端到端图像地理定位大模型AddressCLIP登ECCV2024

CLIP改造而来

克雷西 2024-09-14

多模态

视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling Law

从“A股AI视觉第一股“到”多模态落地先行者”

梦晨 2024-09-09

多模态格灵深瞳

多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench

期待后续多模态大模型的研究和发展更加关注多语种场景

梦晨 2024-06-21

多模态

Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

全面评估多模态大模型的综合视频理解能力

梦晨 2024-06-18

多模态

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

全程无需人类反馈

克雷西 2024-06-04

多模态强化学习

AI读论文新神器：多栏密集文字、中英图文混排文档都能读｜旷视

“一图胜千言”—— one image token >> one text token。

梦晨 2024-06-01

多模态

多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图

无需额外训练，性能大幅提升

衡宇 2024-05-28

CoT 多模态

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

在线可玩

梦晨 2024-05-22

多模态

融合ChatGPT+DALLE3，贾佳亚团队新作开源：识图推理生图一站解决

接近商业闭源模型水平

梦晨 2024-04-15

多模态

香港大模型公司Weitu AI首秀，打造多模态Native的技术和产品

“技术驱动的多模态交互Native产品将形成新的产品习惯”

梦晨 2024-04-09

多模态

钉钉AI：好险，差点就被长文本卷到

长文本、多模态、工作流，钉钉AI上大分

衡宇 2024-03-28

AI助理多模态自定义工作流长文本

3B模型不输7B LLaVA！北大多模态MoE模型登GitHub热榜

甚至部分指标比13B的模型还要好

梦晨 2024-02-09

多模态

大模型学会听音乐了！风格乐器精准分析，还能剪辑合成

首创基于多模态大模型的音乐理解与生成框架

克雷西 2024-01-22

多模态音乐合成

用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤

自动驾驶新解法

丰色 2024-01-10

多模态自动驾驶

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

视觉+音频双模态相辅相成

十三 2024-01-06

SOTA 多模态清华大学

多模态