大模型可解释性

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!

解构GPT-4内部表征为1600万个可理解特征