视觉语言模型

AI模仿人类看漫画,视频大模型时序定位能力新SOTA

用看漫画的方式,大幅提升视频大模型时序定位能力