扫码关注量子位
完全没用注意力机制
大模型训练再提速
114倍信息压缩
性能越好,越依赖注意力机制
Flash is all you need!
超越SwinTransformer与ConvNeXT
终结最强变体之争
引用上百篇文献,GitHub推特双双300+热度
牛津博士和谷歌同时发现