DeepMind

无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生成果

只需对Transformer的特定层进行一种非常简单的修剪