想玩GPT-3申请不到？UC伯克利让你免费在线玩，无需注册，最快10s出结果

羿阁 2022-08-17 15:43:54 来源：量子位

一起调戏OPT-175B呀

羿阁衡宇发自凹非寺

量子位 | 公众号 QbitAI

你说，咱今天可以不加班不？

不，到点走不了，今天这班你必须得加。

如此冷冰冰的回答，来自一个可以免费调戏千亿参数大模型的网站：

这个网站是依托Meta AI开源的预训练语言模型OPT-175B做的，背后团队来自加州大学伯克利分校。

最近该网站在twitter有点火。

再加上不用注册，可以“白嫖”，不少人一边大呼Nice，一边已经去网站“到此一游”了。

如果你之前不知道它，不妨现在跟我们去玩一玩。

这是一个什么网站？

网站主页整个看起来还挺清爽，最重要的是位于页面中心的输出和输入框。

在上方的输入框敲入你需要的内容，点击一下左下角的蓝色按钮，再等上那么一会儿，你就能得到结果了。

目前可以实现的功能有：询问事实，直接聊天，航班代码，多语言翻译，加密货币，代码，计算数学……

比如把你想要回家的迫切心情翻译一下：

或者来点儿数学题：

为了使用起来更简便，网站上只给了三个生成参数：

响应时长、温度参数和Top-p。

在初始设置值下，无论输入句的长与短，响应时长都需要20来秒的时间。

我们试了一下，把这一参数极限往左或往右拉，发现响应时长大概是维持在10-90秒这个区间里。

温度参数控制采样分布的尖锐程度，较低的温度会促使生成器从模型中选择得分较高的token。

Top-p从累计概率超过p的最小可能单词集中抽样，较小的p值会阻止生成器从模型中选取分数较低的token。

团队在网站主页上还声明，虽然只给大家用三个，但是我们后端是支持多种生成技术和参数的！

如果用户现在就想尝试更多的超参数，在网站上体验不同的生成技术，可以通过使用团队做出的一个系统Alpa（用来训练和服务大模型），自己增加相关服务的设置。

他们目前在开发一个RESTFUL API 来公开完整的参数集，后续可以关注一下。

因为采用的是随机抽样，所以针对同一个问题，每一次生成的结果都会有所不同。

比如，前后两次想让网站帮忙解决“中午吃啥”这个千古难题，它一会儿推荐你吃三明治，一会儿推荐你吃沙拉。

（总之是非常健康了）

在隐私保密这一块，网站称不会存储输入的内容，只会记录输入词长度这一类东西。

团队还说了，对于没多少AI相关背景，还想了解接触一下AI生态系统的人来说，网站挺容易上手。

为了验证友好性，我们找来一个AI小白玩儿了一下这个网站。

打开网站，这位旁友啥参数也没动，单刀直入，在输入框里明目张胆地输入了

让我们邀请读者在阅读这篇文章后，关注我们的公号吧。

21.7秒后，网站和我们一起面带热情的微笑，暗（ming）示（shi）你记得关注量子位（手动狗头）。

网站背后的技术依托

要想搞清网站背后的原理，首先，让我们先了解一下它为什么会选择OPT-175B做原型。

OPT-175B，是Meta AI开源的预训练语言模型，共有1750亿个参数，今年5月开源的时候，简直引发了AI研究社区的大轰动。

原因是它的效果完全不输GPT-3，还弥补了OpenAI不够open的问题，有时候被大家戏称为GPT-3的免费版本。

△用14个NLP任务对GPT和OPT进行测试，平均精度相差不大

不仅从完整模型到训练代码、部署代码完全开放，OPT-175B运行时的碳消耗更是连GPT-3所需的1/7都不到，属实是非常环保省能了。

可以说，OPT-175B的开源增加了大模型开发的开放性。

而这个神奇网站背后的技术Alpa，则堪称是OPT-175B的“加强免费版”。

Alpa，是一个专门用于训练和服务大规模神经网络的系统。

此前，无论是OpenAI的GPT-3，还是Meta AI的OPT-175B，都已经实现了将神经网络扩展到数千亿参数。

但是呢，神经网络规模越大，训练和服务他们的分布式系统技术就更复杂。

现有的模型并行训练系统，要么要求用户手动创建一个并行化计划，要么要求用户从有限的模型并行化配置空间中自动生成一个。

相对来说有点复里复杂的，而且还做不到在分布式计算设备上扩展复杂的DL模型。

Alpa的优势在于，仅通过几行代码，就能实现大规模分布式训练和服务的自动并行化。

具体来说，Alpa的突破之处有以下几点：

专为大型模型设计：Alpa在分布式集群上实现了数十亿参数的训练模型的线性缩放，专为训练和服务于GPT-3等大型模型而设计。
没有硬件限制：不依赖最新一代的A100 80GB GPU或花哨的InfiniBand硬件，凭借自家的GPU集群即可使用OPT-175B，特别是在40GB A100、V100等老一代GPU上也能提供更灵活的并行性服务。

灵活的并行策略：Alpa能够根据集群设置和模型架构，自动找出适当的模型并行策略。

而且Alpa由Jax、XLA和Ray等开源、高性能和生产就绪的库提供支持，和ML生态系统集成得比较紧密。

网站的建立，就是团队在Alpa的基础上，根据Meta AI已开源的OPT-175B，做了一个类似OpenAI GPT-3的服务。

运行成本更低，并行化技术更先进，所以可以做到免费供所有人使用。

当然，网站使用受Alpa开源许可的约束。同时因为是针对OPT-175B的，也受到相应的约束，也就是说，这个网站玩玩可以，真要应用，只能以研究为目的。

值得一提的是，有关这篇系统的论文《Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning》已经被收录进计算机系统领域顶会OSDI 2022。

并且，该团队还在国际机器学习大会ICML 2022上，做了关于整个大模型技术栈的tutorial。

目前该项目已在GitHub上开源，链接可在文末自取。

研究团队

Alpa的研究团队主要来自加州大学伯克利分校。

共同一作有三位，分别是郑怜悯，李卓翰，张昊。

郑怜悯，加州大学伯克利分校EECS（电子工程和计算机科学）系博士，研究兴趣包括大规模ML系统、编译器、并行计算和程序合成。

郑怜悯本科毕业于上海交通大学ACM荣誉班，取得计算机科学学士学位。曾经在Amazon Web Services、OctoML和华盛顿大学担任过研究实习生。

李卓翰，加州大学伯克利分校计算机科学博士生，本科毕业于北京大学。

他的研究方向主要在ML和分布式系统的交叉点，致力于提高当前ML模型的准确性、效率、可解释性等性能。

张昊，加州大学伯克利分校RISE实验室博士后。

张昊最近致力于大规模分布式DL，构建端到端的可组合和自动化系统；还研究大规模分布式ML，涉及性能和可用性。

如果你感兴趣的话，可以戳下面的链接，自己上手体验一下～

网站demo：
https://opt.alpa.ai

参考资料：
[1]https://arxiv.org/pdf/2201.12023.pdf
[2]https://arxiv.org/pdf/2205.01068.pdf
[3]https://github.com/alpa-projects/alpa

GPT-3 OPT-175B

羿阁

想玩GPT-3申请不到？UC伯克利让你免费在线玩，无需注册，最快10s出结果

这是一个什么网站？

网站背后的技术依托

△用14个NLP任务对GPT和OPT进行测试，平均精度相差不大

研究团队

相关阅读

成为GPT-3的甲方，让它来帮你设计网站

GPT-3当一作自己研究自己，已投稿，在线蹲一个同行评议

这才是Excel未来的样子，口喊求和什么的弱爆了

烧了微软10000张GPU，这伙人铁了心要砸大家的饭碗

200字带你看完一本书，GPT-3已经会给长篇小说写摘要了

担心GPT-3被喂假消息？谷歌新研究，将知识图谱转成“人话”用于训练丨NAACL 2021

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

倒计时1周！20余位行业大佬共话AI，中国AIGC产业峰会最全攻略在此