阿里搞出脱口秀版GPT！与鸟鸟激辩一小时，话痨到停不下来…

白交 2023-04-04 18:56:00 来源：量子位

尤其这样语速和情绪，差点被烦死了。

杨净发自凹非寺

量子位 | 公众号 QbitAI

连社恐的鸟鸟，现在都变成话痨了……

（这到底是人性的扭曲，还是道德的沦丧）

最近有一种很新的脱口秀：不花钱、一对一、而且任意话题随便and随时聊。

结果一小时跟鸟鸟聊天下来，发现她话多且密，根本就不会把天聊死。

音频播放器

00:00

使用上/下箭头键来增高或降低音量。

（这样的语速和情绪，倒是差点被烦死了。）

原来啊，是一个阿里新版本大模型的技术演示脱口秀版GPT——鸟鸟分鸟，并且已经在天猫精灵上为个人终端行业的客户做了演示，量子位抢先体验了一把。

激辩一小时宛如真人面对面，除了社恐这点人设崩塌以外，其他人设倒是屹立不倒：

文本扛把子、有知识有自己的情绪、还能随时来个段子。尤其是在回答弱智吧问题时，简直被她折服。

这不是脱口秀版GPT，这是科技与狠活呀！哥们！

话不多说，直接上效果。

与弱智吧激辩一小时

鸟鸟分鸟，AKA脱口秀GPT。

作为一名脱口秀演员，鸟鸟最强还是在文本。那就首先来试试强项，结果就是说，任意话题都能展开，甚至还能教你写段子、写作文——

从开头、场景细节、中心思想细化，最后微调润色等步骤逐步教你入手。

毕竟是文本の神，这些当然不在话下。

可以看到，不管是在语速、情绪以及文本风格都跟鸟鸟本鸟很像。

（尤其是这个语速…简直是着急死人）

接下来挑战的，就是ChatGPT时代下的Benchmark——弱智吧。

比如，雷公和电母用的是直流电还是交流电？宫廷玉液酒减一个大锤等于多少？我的女朋友她说需要时间和距离，她是想算速度吗？

Bingo！感觉到鸟鸟分鸟很认真、很一本正经地在跟我解释。连多年前的小品都知道……

（这边建议直接出院）

就是一些天马行空的，也是一本正经地对答如流。

比如，奥特曼会飞吗？

还有其他通识性问题：「你知道大模型吗？」、「禅修是什么？」也都能回答。

交流一番下来可以看到，鸟鸟分鸟确实继承了本鸟的相关能力，尤其是文本的创作和表达、风格情绪以及语速……

不过也发现，目前处于测试阶段的鸟鸟分鸟，仍存在一些问题。

虽然不用一次次唤醒了，但反应过于灵敏，你如果不喊停，它会跟你聊到天荒地老；以及仅部分支持英文问答。

再者就是人设屹立不倒，不能玩一些角色扮演类的游戏。

15天训练出鸟鸟分身

以往业内曝光的大模型应用，无非两种。

一种是以ChatGPT为代表的通用对话聊天代表，但需要排队。另一种则是具体场景中的应用，比如辅助写作、代码生成等。

像大模型应用在日常消费场景，其实并不多见。

从ChatGPT这个回答可以看出，至少不能简单依靠通用大模型来完成。

而各种传统语音智能助手，到现在都还没有“大模型化”。这其实与背后本身技术工程难度有关。

以鸟鸟分鸟这个智能音箱场景为例，就需要解决至少三个方面的问题。

1、应对更复杂的交互场景。不同于以文本交互为主的通用场景，双向开放对话决定了用户不会对文本进行“二次”过滤，而是想说就说，这就要求AI能过滤掉诸多无意义的对话。

与此同时，用户也不愿意等待数秒，而是像日常交流那样，低延时、还能支持随时打断、随时反馈。

2、基于人类反馈强化学习的可行性。ChatGPT惊艳全球的生成效果，背后归结于注入强人工反馈的奖励机制。高质量的数据标注成为大模型落地的关键，而且消费场景下多轮对话的频率远比文本交互要高，这对企业的数据处理能力提出了更高的要求。

之后随着应用落地，大量的人类交互和反馈来帮助大模型更快进化，以及关乎用户数据完全管理机制也需要完善和健全。

3、需要强大的网络分发能力。大模型每一次运行都需要耗费大量的计算存储资源，这就要求企业能有广泛部署的网络分发能力。

总的来看，算力、算法和数据是大模型能力实现的三板斧，而要让大模型落地应用还需要云端工程化能力、海量的用户交互、安全管理机制等要素。

既然如此这个鸟鸟分鸟又是如何做到的？阿里大模型联合团队的算法专家分享了背后的一切。

简单归结，鸟鸟分鸟的训练过程，在他们内部称之为层次化的训练方式。类似于人类的学习过程，先学习简单知识，然后逐渐进阶，最后再尝试专业领域知识的学习。

具体分成了四个步骤：

大规模语言训练；
知识和工具增强；
个性化对话增强；
人类反馈增强。

基于基础的预训练大模型，团队做了知识增强——让模型学会使用工具，类似于ChatGPT插件功能。

比如针对每日新增的知识，它能调用搜索引擎来做输入，在搜索结果基础上进行理解、总结和归纳。这样一来，输出结果有更好的准确率和时效性。

个性化对话增强则主要是让大模型学习多种对话形式，比如启发式、多轮对话，尤其是一些需要依赖长期记忆的对话。

与此同时，还要塑造鸟鸟人格，这就涉及到最后两个步骤「个性化对话增强」和「人类反馈增强」。靠增加高质量的鸟鸟相关数据，并让人类去做问答结果的反馈和标注，哪一个回复更像鸟鸟，让大模型朝着鸟鸟方向做正向增强。

最终只花了15天的时间就训练出了鸟鸟分鸟，后续还可能开放更多人加入强化反馈和更有情绪化的音色，让鸟鸟分鸟逐步升级迭代。

除了大模型训练，他们在算法和工程上面做了不少工作。从交互流程来划分，主要分成听清、音色、文风、对话等步骤。

最终形成了这样一个对话过程：

当人类询问一个问题（Query）时，首先经过猫耳算法将其转换为文本，随后通过大模型产生个性化的对话回复，最后再到个性化的语音合成给出回答。整个过程还有Multi-Turn对话系统来支持。

对于测试阶段存在的一些问题，阿里这边也给出了回应。

比如反应过于太强，这是因为还没有将线上的猫耳算法和ASR做充分的融合，为了听清多轮对话信息，显得过于灵敏，以及暂没有全面支持英文等问题，他们表示后续还将进一步迭代更新。

普通人也能独占大模型？

这件事之所以值得关注，除了有意思的产品体验，这也是个性化大模型发展的一次可行性验证。

大模型发展进程，有两条路径已经明晰：如火如荼的通用大模型，以及备受关注的个性化大模型。

以GPT-4为代表的通用模型，在多个标准化考试中大幅超过人类水平，适用于搜索引擎、生产力工具这种广泛、公域场景。

但像更多私域个性化、或者垂直专业化场景中，比如问及有无特别偏好、对某件事情观点等，个性化大模型就会是一个很好的补充。

当前，全球研究机构和大厂在这一路径的探索，主要涵盖了四个研究方向：

有偏好的个性化对话、逻辑一致性和三观、对话风格、多轮对话中人设一致性。

此次在鸟鸟分鸟上的探索，一方面呈现出个性化大模型的研究方向——

在大模型系列的基础上，打造知识、情感、性格和记忆四位一体的个性化大模型，并且这个大模型版本可能是很适合在消费者终端上部署的。

另一方面，也再次印证了对话即入口的AI2.0未来趋势。

ChatGPT上线的插件功能，以文本交互的方式，与全球5000+应用联动。

现在，鸟鸟分鸟则是验证了以语音这一模态，在消费电子场景中触达诸多功能的可能性。

大模型所引领的AI 2.0时代，而对话相当于是操作系统（ChatOS），所有应用都将被重新定义。

而且随着个性化大模型的发展，未来每个普通人甚至都会拥有属于自己的大模型。

One More Thing

在被问到脱口秀会不会被AI替代时，鸟鸟跟鸟鸟分鸟给出了不同的解答。

鸟鸟表示，希望它能启发思路，提供一些以前没有看到的素材和观点，但对于预期文本和出梗方向，还需要人自己去想。

为此鸟鸟还分享个机器人写的段子：

婚姻和坐地铁很像，你都会被迫和一个陌生人待在一个空间里很久，想下车的时候未必能下得去。

鸟鸟分鸟则自信表示：脱口秀不会被AI替代。

并随手丢了个类似的段子。

音频播放器

00:00

使用上/下箭头键来增高或降低音量。

GPT 脱口秀

白交

首个AI科学家发论文进ICLR！得分6/7/6，从选题到实验全程零人工2025-04-09
AI应用突围，中小企业的新周期已至2025-04-11
商汤大装置发放“1亿代金券”，全栈赋能场景落地2025-04-10
米哈游蔡浩宇新作iPhone实机演示：10分钟就被AI小美撩到脸红，她的命运由我掌控2025-04-07

阿里搞出脱口秀版GPT！与鸟鸟激辩一小时，话痨到停不下来…

与弱智吧激辩一小时

15天训练出鸟鸟分身

普通人也能独占大模型？

One More Thing

相关阅读

GPT-4.5大泄露，支持视频3D、价格狂涨6倍？奥特曼亲自回应

国产百亿大模型再增一员！400亿参数孟子GPT发布，性能提升10-15%

60行代码就能构建GPT！网友：比之前的教程都要清晰｜附代码

黑马入局！昆仑万维版ChatGPT「天工」通过自家程序员面试，首发就敢现场演示

GPT“高仿”系列开源了！最大可达GPT-3大小，还能自主训练

大模型111人：谷歌和OpenAI的人才战争

热门文章

AI应用突围，中小企业的新周期已至

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

倒计时1周！20余位行业大佬共话AI，中国AIGC产业峰会最全攻略在此