扫码关注量子位
推理阶段也适用
CoT让Transformer更接近图灵完备
预言5年内机器人领域将迎来大突破!
与Jeff Dean一起共事
作者:和MLP不能互相取代
Transformer作者创业成果
ViT作者等一众学者点赞
数据集/架构/训练全都新来一遍
内存开销也大幅降低
性能和效能双飞升
统一两大序列建模架构
动态组合多头注意力
对MLP“进行一个简单的更改”
114倍信息压缩
MoE正火,MoD也来了
取两架构之长,混合模型Jamba诞生
英伟达科学家:最有想象力的论文
一文看懂“Transformer挑战者”两大主要思想
支持多种视频合成或处理任务
陶大程领衔