陶哲轩自曝用了「满血」GPT-4：人类对信息技术的期待全部需要校准

衡宇 2023-06-17 13:49:45 来源：量子位

“2026年，AI将成为数学研究中值得信赖的共同作者，其他领域也一样”

梦晨发自凹非寺

量子位 | 公众号 QbitAI

数学家陶哲轩刚刚自曝，在GPT-4发布之前就从微软那里获得了访问资格。

也就是和微软154页《AGI的火花》论文里同款，未经过安全训练但能力更强的满血版。

他让GPT-4针对论文提出问题来准备讲座。

他让GPT-4生成数学证明，并发现过去阅读人类作品的经验完全不适用了。

对于AI在数学研究中的表现，他给出的大胆却又严谨的预言：

当与形式证明验证器、互联网搜索和数学符号包等工具整合时，2026年的AI，如果使用得当，将成为数学研究中值得信赖的共同作者，而且在许多其他领域也是如此。

除了数学研究，他也把GPT-4用在了生活中。

他经常使用GPT-4回答一些随意、措辞含糊的问题，这些问题以前需要在搜索引擎里精心调整关键词才行。

还有一位亲戚拿到重症诊断的同事，被GPT-4写的慰问信感动得哭了。

在对话中，GPT-4可以充当富有同情心的倾听者、热情洋溢的反馈者、富有创造力的灵感来源、翻译者或教师，又或是魔鬼的代言人。

……

微软邀请他依据自己的体验写了一篇文章，在开头处他总结到：

在过去的几十年里，人类已经习惯了从信息技术中期待某些东西……

随着GPT-4等生成式AI工具的出现，所有这些期望都需要重新校准，如果不是完全放弃的话。

以下是陶哲轩全文翻译整理，由公开发行版GPT-4完成。

拥抱变化和重新设定期望

在过去的几十年里，人类已经习惯了从信息技术中期待某些东西。以下是其中的一些：

硬件和软件将以摩尔定律的速度改进（例如性能、用户体验和可靠性），然后过渡到更加渐进式的改进。
单个软件工具可以可靠地产生高质量的输出，但输入数据必须具有最高质量，并且必须以工具要求的特定方式精心格式化。
工具越先进，规范和边界情况就越复杂，这使得工具之间（尤其是不同提供商之间）的互操作性成为一个重要的技术挑战，除非有精心设计的标准。
人类将做出所有关键的决策；软件工具通过成功或失败地执行人类指示的命令来影响决策过程。

随着GPT-4等生成式AI工具的出现，所有这些期望都需要重新校准，如果不是完全放弃的话。

这些工具在处理含糊的（甚至略有错误的）自然语言提示或从网页或PDF中提取的嘈杂数据时表现非常出色。

我可以将最近的一篇数学预印本的前几页PDF输入GPT-4，让它生成半打有关该预印本的专家可能会提出的聪明问题。我打算使用这类提示的变体来准备将来的演讲或开始阅读技术复杂的论文。

最初，我努力使提示尽可能精确，这是基于我与编程或脚本语言的经验。

最终在我放弃这种谨慎，并简单地向AI提供大量原始文本时，取得了最好的结果。

这种鲁棒性可能使AI工具与传统软件工具相结合，或者彼此相结合，或者与个人数据和偏好相结合。它将它将颠覆各种工作流程，而目前孤立使用的人工智能工具只是在暗示有这种能力。

在对话中，GPT-4可以充当富有同情心的倾听者、热情洋溢的反馈者、富有创造力的灵感来源、翻译者或教师，或者是魔鬼的代言人。

它们可以帮助我们在各个维度上繁荣发展。
由于这些工具允许各种各样的输入，我们仍在尝试如何充分利用它们。

我现在经常使用GPT-4回答我过去需要使用精心准备的搜索引擎查询的随意和含糊的问题。

我请它为我必须编写的复杂文件提供初稿建议。我认识的一些人已经利用这些工具惊人的人工情感智能来获得支持、安慰和一个安全的环境来探索他们的感受。我的一位同事被GPT-4生成的一封安慰信感动得热泪盈眶，这封安慰信是写给一个近期收到毁灭性医学诊断的亲戚的。

在对话中，GPT-4可以充当富有同情心的倾听者、热情洋溢的反馈者、富有创造力的灵感来源、翻译者或教师，又或是魔鬼的代言人。

它们可以帮助我们在各个维度上繁荣发展。

目前的大型语言模型（LLM）经常能够在特定知识领域（例如我自己所从事的研究数学）中令人信服地模仿正确的专家回应。但众所周知，仔细观察时，回答往往是荒谬的。

人类和AI都需要发展分析这种新类型文本的技能。

我过去依赖的用于“嗅出”错误数学论证的文体信号在LLM生成的数学中几乎无用。只有逐行阅读才能分辨出是否有实质内容。
奇怪的是，即使是无意义的LLM生成的数学，往往也引用了正确的相关概念。

通过努力，人类专家可以将这些不起作用的观点改进为正确且独创的论据。

2023年水平的AI已经可以为从业数学家提供有建设性的提示和有前景的线索，并积极参与决策过程。

当与正式证明验证器、互联网搜索和符号数学软件包等工具整合时，我预计，例如2026年水平的AI（如果使用得当）将成为数学研究领域以及许多其他领域值得信赖的合作作者。

那么接下来呢？这不仅取决于技术，还取决于现有人类制度和实践如何适应。

当AI指导的研究生撰写的入门级数学论文现在可以在不到一天的时间里生成——并且具有未来AI工具更好的准确性时，研究期刊将如何改变其出版和引用实践？我们的研究生教育方法将如何改变？我们是否会积极鼓励和培训我们的学生使用这些工具？

我们在很大程度上没有准备好应对这些问题。将会有惊人的AI辅助成就展示和勇敢的实验来将它们纳入我们的专业结构。但也将出现令人尴尬的错误、争议、痛苦的破裂、激烈的争论和仓促的决策。

我们通常的技术范例将无法作为导航这些未知水域的充分指南。也许最大的挑战将是以尽可能安全、明智和公平的方式过渡到一个新的AI辅助世界。

One More Thing

陶哲轩还在个人博客中分享了这篇文章的创作中的一些花絮。

他自己和GPT-4先分别写了一份。

又让GPT-4看了自己写的之后，要求GPT-4把它的文章改成自己的风格。

最后又让GPT-4直接改写了自己的初稿，并贴在一起方便大家比较。

（最后还是用了他自己写的）

感兴趣的话可以去看看～

原文：
https://unlocked.microsoft.com/ai-anthology/terence-tao/

4个版本比较：
https://terrytao.wordpress.com/about/ai-generated-versions-of-the-ai-anthology-article/

参考链接：
[1]https://mathstodon.xyz/@tao/110534826121112802

GPT-4 LLM

衡宇

陶哲轩自曝用了「满血」GPT-4：人类对信息技术的期待全部需要校准

拥抱变化和重新设定期望

One More Thing

相关阅读

把GPT-4搞进AR眼镜，一秒生成回答内容，面试简直开挂好嘛！

GPT-4击败华尔街？最新研究：选股回报超40%

最强LLaMA突然来袭！只改一个超参数，实现上下文3.2万token，多个任务打败ChatGPT、Claude 2

IDEA研究院张家兴入局大模型创业，沈向洋任顾问，首轮估值20亿

突发！ChatGPT Plus停售

GPT-4成学术造假“神器”，伪造数据又快又合理，Nature请统计学专家“断案”

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购

Qwen3真香！通义App满血接入，一手实测在此