RNN

新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型

与其让隐藏状态被动地储存信息,不如让它主动学习

梦晨 2024-07-09