硅基智能五年技术布局迎来收获期 两个月内连获6件数字人发明专利
硅基智能已拥有授权专利77件
不到两个月的时间硅基智能连续获得6项数字人发明专利,包括实时音频驱动人脸生成方法、三维人脸表情渲染方法、训练神经辐射场模型等涉及计算机视觉(CV)、自动语音识别(ASR)、自然语言处理(NLP)领域的多项人工智能技术专利。截至目前,硅基智能已拥有授权专利77件(含5件美国发明专利、1件新加坡专利)。
前瞻产业研究院《2023年全球数字人行业技术全景图谱》显示:2022年1-12月,全球数字人行业专利申请数量和专利授权数量分别为3054项和230项,成功通过申请率仅为7.53%。硅基智能短时间内成功收获多项专利授权,足见在数字人赛道中技术实力的头部地位。
不断攻克技术壁垒,AIGC数字人技术行业领跑
据悉,这6项专利发明涉及“唇形与语音能否一致、语音实时驱动人脸、人脸表情精准迁移、音频驱动人脸清晰度”等影响数字人形象仿真效果的重要技术,是硅基智能作为AIGC数字人品类发明人所进行的全面细致、系统性的专利技术布局。
硅基智能声学团队针对ASR相关技术申请的”文本输出方法及系统、存储介质、电子装置“专利,针对数字人语音识别系统对于不同声学模型无法理想融合问题进行了突破。
利用上述文本输出系统进行语音识别过程中,可在不增加明显时耗的基础上同时对齐多个文本,融合词频和置信度信息,提升融合效果来提高模型稳定性,优化文本输出算法和系统架构,使得数字人能够更准确地识别和转换语音输入,大大提高数字人音频驱动、真人驱动模式下的语音识别准确性、实时性,为全球用户带来更高水平的数字人交互体验。
硅基智能CV团队同样也构建了计算机视觉相关的全套专利群,此次的”训练神经辐射场模型和人脸生成方法、装置及服务器“专利。攻克了“多层感知器对神经辐射场模型训练、学习,只能实现低清晰度的人脸视频生成,无法基于音频驱动实时生成高清人脸视频”的技术壁垒。
该发明无需其他任何中间模态的转换,如人脸表情,人脸关键点等,进一步提高了语音到人脸形状映射的准确性。并且,该发明无需大量成对的语音、视频数据集,只需要单人提供的短视频即可用于模型训练。同时,该发明使用图像像素位置特征,用于训练神经辐射场,以及设计感知损失函数,用于优化神经网络参数,以此显著提升音频驱动人脸生成渲染清晰度,避免局部模糊、动作卡顿,使数字人形象更加逼真自然,动作表情更加流畅顺滑,提高图像高频差异感知,达到实时语音驱动高清人脸的数字人视频生成效果。
来源:IDC咨询《中国AI数字人市场现状与机会分析》
2022 年之前数字人大多处于 L1-L3 的阶段,在AIGC技术浪潮下,行业顶尖数字人技术即将跨进 L4 阶段,实现初步的智能化交互。得益于较早布局AIGC赛道,硅基智能AIGC数字人已是数字人L4阶段的头部代表,并无限逼近L5阶段。硅基团队50%以上皆为研发人员,每年研发投入占比高达70%。正是硅基智能对数字人相关的AI技术和算法进行的持续性研发投入,以及在计算机视觉、语音识别、自然语言处理等方面长期积累的技术能力,让硅基智能AIGC数字人在全球范围内均处于行业头部地位。
全球首创AIGC数字人模式
作为全球首创AIGC(Artificial Intelligence Generated Character)数字人模式的科技公司,硅基智能自2019年推出全球首个AI数字人以来,先后开创了数字人直播、数字人短视频的创新行业应用,凭借卓越的技术实力牢牢占据了全球数字人行业的领导地位。
硅基数字人赋能千行百业
硅基文明创立者、硅基智能创始人司马华鹏曾说:“每一个新技术都有自己的成长周期,长期主义需要战略定力,忽略短期噪音。在欧洲创业的前十五年我都致力于人工智能和计算机图像算法领域的研发,后来回国创立了硅基智能,把实现硅基文明作为未来十年要全力以赴去投入的事业。这两条沉淀了二十多年的技术线的汇聚,构成如今硅基数字人产品的‘表’和‘里’”。
科技平权,数字人商业化落地
硅基智能一直倡导科技平权的理念,利用AIGC技术实现科技普惠,计划到2025年为全球输出一亿硅基劳动力,通过AIGC技术、数字人产品和产业生态的结合,打造AIGC领域的中国样板。
同时,硅基智能不断探索以科技力量解决社会问题,截止2022年中国共计有110万失独家庭,面对这样的社会问题,硅基智能数字人技术已可实现用一段1-3分钟视频素材,克隆去世亲人的数字分身,以实现和“真人”一样逼真的“面对面”交流互动。
此外,硅基智能专注于解决各行业劳动力不足的刚性需求,利用AIGC技术创造大量硅基劳动力,同时助力企业实现数字化转型。目前,硅基智能的业务遍布全球,已经为数十个行业近万家企业提供了数字人服务。
展望未来,硅基智能将继续推动科技创新,积极响应国家数字经济建设布局,充分发挥自身技术优势和商业化落地经验,以AI赋能助力加速产业数字化转型,打造更多智能化标杆场景应用案例,不断为数字中国创新发展注入新动能。
- 12/21来成都!携手多点、TuGraph、DB-GPT社区一起玩转 DB+AI2024-12-16
- 第五届长沙·中国1024程序员节,即将震撼来袭!2024-10-14
- 国产全AI游戏来了?!大模型直出开放世界游戏,有声可交互2024-12-13
- 扒一扒大模型应用隐形冠军:服务1600+企业、200+业务场景,分分钟就可构建专属应用2024-12-12