1024,点亮人间烟火
科大讯飞开放平台10周年的答案
杨净 晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
20年前,安徽合肥一群来自中科大的探路者押注AI,成立科大讯飞。现在合肥被称为中国“最敢赌”、最牛的风险投资机构。
10年前,科大讯飞人工智能开放平台发布。
现在这个平台上的开发者,从十几个团队,成长到超过150万家;应用终端数从不到10万,增长到超过20亿;而这个平台能提供的能力,从当年的语音合成和识别两个,大幅提升到如今的334种复杂AI技能。
在讯飞之上已经成长出一套成熟的生态系统。今天,已经创下史上最佳业绩的科大讯飞,要向着新十年重新出发。
人工智能红利三大标准
十年过去,时代变了。
如何看待如今的天下大势,科大讯飞董事长刘庆峰总结了一套“3-4-3-4”的逻辑框架,为AI开发者和讯飞自己指出了方向。
首先是三大变化。
我们正处在新旧红利的交替期。
第一个变化是:移动互联红利到期,而万物互联红利开启。越来越多的智能设备,将推动人机交互等业态的繁荣。
第二个变化是人口红利到期,工程师红利开启。劳动生产效率将随之大幅提升。
第三个变化是从为产品赋能,到为企业转型升级赋能。刘庆峰指出,过去一年50万创业者关注的重点,不仅是利用讯飞的技术创造各种产品,而且还将技术用于提升自己的生产效率、提高市场营销能力等方面。
变化之下,蕴藏着哪些机遇?
讯飞的回答是四个:场景驱动、数据支撑、技术驱动、资本助推。简单来说,就是有需求、有数据、有技术、有资本,而且这四个机遇的影响力还在不断加大,并且将会为人工智能带来前所未有的发展。
有变化、有机遇,还要有所为、有所不为,才能真正抓住新的人工智能红利。什么是应该干的?判断标准有三个。
首先,要有看得见、摸得着的应用场景。其次,要有能够规模化推广的产品。再次,要能产生比较优势的价值。总而言之,还是要抓大放小,提升效率。
其实,对于这三大标准,在去年发布会上已经强调过了。为何一再强调,自然也有科大讯飞自身的底气在。
就在上一年,科大讯飞就创造了最佳历史最佳业绩,营收达到100.79亿,首次破百亿;净利润同比增长51.12%,达到8.19亿,日均盈利224万元。
所以,按照这样的标准,科大讯飞赚钱了,还赚了不少。
而到今年,讯飞给开发者提供的AI能力从去年的200项提升到了今年的334项,开发者数量增加了50万,开发了近93万个应用。
对于未来,科大讯飞又要怎么做呢?
刘庆峰给出了四个重点方向。
第一,持续优化深度神经网络算法。用更少的数据,得到更好的结果。
第二,让机器学习能够实现半监督和无监督的学习。
第三,探索人工智能应用的个性化。
第四,进一步赋能数字生存时代。
讯飞的AI科技树
「核心技术才能推动行业的发展。」这个整个大会上一直所强调的。
科大讯飞如今成立21周年,讯飞开放平台成立了10周年,无疑不在证明着「核心技术」的驱动力。
就像今年科大讯飞AI研究院常务副院长刘聪在「新技术发布会」上构筑的AI科技树。
技术顶天,项目落地。
2019年,是人工智能规模化价值落地、行业全面AI化的一年。去年一年,讯飞就取得了不少成果。
AI+会议方面,听见云会议为1000余家企业单位服务了近1000000次远程视频会议,依托于科大讯飞的语音技术率最高达97.5%。
再比如在医疗领域,讯飞智医助理机器人是全球第一个通过了国家执业医师资格考试的机器人,并超过了96.3%的人类考生。
过去,智医助理已经看了6000多万病人了,开了8000万的病例,把基层医生的合理诊断度从70分提到了90多分。
那么以这三大标准为目标,站在AI核心技术的角度,又该如何思考和演进呢?
通过几个代表性方向技术最新进展,刘聪给展现了科大讯飞科技树的全景。
首先来看语音识别。
今年5月,讯飞继续参加号称史上最难语音识别任务的CHiME6比赛,获得了三连冠,将最优的错误率从上一届的46%降低到这一届的30.5%,进一步接近了使用水平。
讯飞将自己的能力做成相关工具和平台,提供给开发者,让他们可以方便地进行模型方案的更新。
在这个平台上,针对某些产品,开发者可以在端侧直接实现用户无感知的个性化训练。以语音唤醒为例,基于一个通用的唤醒模型,针对特定唤醒词,在10分钟之内即可实现一个模型自动优化,使之达到使用门槛。
另外,此次发布会上,讯飞还给出了「全场景音频解析」的解决方案,在复杂环境中的识别效果从60%提高到了85%。
接下来看一下语音合成。
对应于刚才语音识别的全场景音频解析,我们认为语音合成也需要实现从语音到声音的全场景音频合成。
应该来说除了在交互场景,我们将相关的方案在小说合成、在配音合成等场景也大有可为。另外一块我们知道情感的表达和合成和预测也是我们语音合成当中的一个重要的方向,也是业界的研究热点。
近年来其实伴随着深度学习的加持,科大讯飞也提出了基于听感量化的多人混合训练等合成框架。并进一步在向合成更有表现力对话场景演进。
科大讯飞AI研究院常务副院长刘聪表示,他们已经做到了接近4.5分的水平,也就是介于普通人标准发音和满分播音员之间的水准。
今年,讯飞又进一步拓展了语音合成平台能力。开发者可以基于自然语言理解技术,从文本当中分析到合适的情感焦点,以及角色相关的信息,并通过语音呈现出来。
另一方面,通过对内容的理解,开发者还能实现一人分饰多角和情感的变化。
接着,多模态生成。
讯飞早已不是一家单纯的语音技术公司,为了让声音更富表现力,需要用多模态的方式呈现。除了让语音更具情感外,也让语音有了形象。
去年讯飞发布了全球首个多语种虚拟主播小晴,今年继续发布了更多的虚拟主播,并已在多家媒体使用。
一方面为小晴研发了丰富的表情和动作生成能力,结合生活化场景的设计和终端性能的优化,推出了更适合交互场景的虚拟形象;另一方面进一步配合静态和动态内容的嵌入设计,可以在更多场景应用推广。
例如利用虚拟形象技术、结合语音评测等相关技术开发的英文教学互动主播,可以让英语学习更加生动有趣。
接下来,科大讯飞将开放60个语种的语音合成系统,69个语种的语音识别系统,平均识别率80%以上,重点语种90%以上。
还会开放56个语种的图文识别系统,针对通用文档的平均准确率在85分以上,168个语种的机器翻译,其中35个常用语种和中文翻译在口语场景下人工忠实度达到3.8分。
最后来看一下行业认知。
认知智能相对于以上语音图像等感知智能其实难度更大。
过去几年,讯飞在向教育、医疗、政法等行业的认知智能取得了不错的进展。医疗认知为例,2017年11月,讯飞医考机器人以456的高分通过了国家职业医师资格考试。
今年,讯飞在难度更大的多步推理机器阅读理解HotpotQA上取得突破。
8月27号,讯飞哈工大联合实验室用自主研发的MacALBERT模型,在这个任务上取得了综合第一,代表了讯飞在认知智能的通用技术上,持续保持业界一流的水平。
讯飞也基于这样的技术,针对中文领域,训练了业界效果领先的中文模型,并开放给业界,给研究人员提供相关的服务,目前也是最受欢迎的中文预训练的模型之一。
在这次新技术发布会上,科大讯飞正式发布了认知中台,以自己的开放能力,向合作伙伴共享行业经验。
最后,这些AI科技树上的「果子」也都将服务百万开发者。
共赢的平台
今年对讯飞开放平台有点特别——正好推出10周年。
从2010年10月28日发布到现在,讯飞的人工智能开放平台上,已经累积了334项的能力和方案,覆盖230万开发者和生态合作伙伴。
至今为止,这个平台已经面向14个行业发布了优化专题。例如AI中台、数据中台等,也被不断的整合进来。去年发布的云端一体化交互方案,迄今已有超过有3000万的装机量,每天的交互的次数已经超过了1亿次。
那么今年的突发事件,对平台影响几何?
“疫情稳定之后,我们发现基于讯飞开放平台上的开发者进入了一个更加快的增长节奏。连续三个季度的复合增长率已经超过了53%,这是一个继2016年以来的又一次的快速增长,”科大讯飞集团副总裁于继栋透露。
那么现在开发者都在利用讯飞平台的AI技术,做些什么事呢?
有一家轮胎生产企业,利用AI视频技术来监控轮胎的浇注过程,用这个方法来高效解决杂质介入的情况,提升轮胎质量。而在建筑工地,视频AI技术也被用来检查安全帽的佩戴情况,提升了准确率与安全性。
所有这些,都是企业的AI化、数字化升级的一部分。
对于这件事,科大讯飞认为企业的最终的形态,是一个智慧体。也就是通过AI的帮助,能够更有针对性的提高生产率,找到企业发展的瓶颈并加以解决。
在讯飞的开放平台上,AI服务市场就是专门用来解决定制化AI场景需求的服务。经过两年半的发展,已经有超过500家服务商入驻。
这些服务商,目的就是帮助上游的企业客户,解决他们在特定场景中面临的定制化需求,借助AI技术完成企业的升级改造。除此以外,讯飞也对外开放了云平台,进一步助力AI技术的部署和实施。
“整个的数字化升级是一个非常巨大、非常深远的过程,”于继栋说仅靠讯飞一家提供的服务远远不够。合作共赢,正是讯飞开放平台的意义所在。
1024开发者节
今年,虽然有疫情限制,活动形式采取线下与云端同步,但开发者、合作伙伴仍然热情高涨。
有9118支团队来参加比赛,线上参加产品直播的企业数达到了491家,比去年同期增长50%。
今年科大讯飞开发者数量,从去年108万人,到如今已经有157万开发者加入进来。且开发应用数量,从去年的70万个到今年的93万个。
讯飞给开发者提供的AI能力从去年的200项提升到了今年的334项,AI应用场景也达到了上百个。
此次开发者大会,讯飞还强调了为行业赋能。目前,讯飞已经跟近百家龙头企业形成合作,赋能行业企业,包括海尔、海信、中国邮政、中电光谷等。
为什么会取得这样的成绩?刘庆峰表示,
我相信,是因为大家看到了人工智能对未来的重大战略意义。尤其是在疫情之后,企业更看到了人工智能在解决社会刚需上面的迫切需求。
而在今年,讯飞的开放力度更大。
在1024开发者节现场,科大讯飞高级副总裁、消费者事业群总裁胡国平推出的《1024计划4.0》,在先导计划、城市计划、公益计划三个方面全新升级。
比如,在先导计划中,就推出了面向行业的AI人才成长体系,上线提供了包括语音、图像、自然语言理解以及核心底层的机器学习和深度学习等多层面体系课程,还特邀了AI的技术和应用的专家录制专业课程。
正如刘庆峰所说,AI生态已经面临着「人口红利到期、工程师红利开启」的变化。
所以就在这一关键时候,讯飞给企业开发者提供了练手的好机会。
在城市计划中,讯飞也彰显出了自己的社会责任。他们分别从城市赋能、本地化服务和高校赋能上来展开。
目前,讯飞已经在苏州、长春、天津、青岛等10个城市建立来人工智能产业加速中心。
而在高校赋能中,AI大学、AI竞赛、AI社团、AI实训营……让更多的大学生来近距离的学习和实践人工智能。
据说此次开发者大会上,讯飞还搭建了一个路演平台,将有各个高校的10多个团队进行创新创业项目展示。
再比如,公益计划。
作为科大讯飞一直以来的主打项目,目前开放平台已经创建了22,459个无障碍应用。这些应用每天为我们的视听障人群提供了超过5000万次的AI服务,累计服务障碍人群超过1087万。
最关键的是,也就是在今天,讯飞开放平台第一个无障碍版正式发布!专门为视障开发者打造的AI能力窗口。
可以说,因为有了开发者,「自己干不动」的讯飞,变得更强大了。
讯飞也因此,再以更开放、成熟的生态平台来拥抱开发者。
就像刘庆峰在最开始所说,
创业的过程就像是登山,我们只有胸怀登顶的梦想,一步一个脚印,踏踏实实的积累高度,最后才能登顶。
我们从来没有看到过能够独行的登山者能够登上喜马拉雅山。
对于AI成功的秘诀,讯飞有自己的答案:唯有生态,才能生生不息。
- 谷歌版Sora升级4K高清!一句话控制镜头运动,跑分叫板可灵海螺2024-12-17
- 谷歌版o1突发即屠榜!思考速度比所有模型快5倍,能解摩斯代码,数学物理秒秒钟解决2024-12-20
- 大模型是新的数据库!蚂蚁开源负责人王旭:应用开发新范式,新一代LAMP正在形成 | MEET 20252024-12-18
- 「AI定义汽车」新拐点已至!小米孟二利:我们有三个工作需要做好2024-12-13