眼神科技CTO江武明:多模态统一身份认证——数字化的入口和枢纽|量子位·视点分享回顾
视点 发自 凹非寺
量子位 | 公众号 QbitAI
近年来,指纹、人脸、虹膜等生物识别技术,在智慧城市、治安治理、民生服务等行业广泛应用,为民众带来安全便捷同时,也助力了产业智能升级和降本增效。
其中生物识别技术作为人与数字资产关联的基础技术,是数字化的入口和枢纽。随着产业数字化和电子证照应用的提振加速,面对海量数据下的高安全与强隐私需求,单模态生物识别技术略显“乏力”。
与此同时,经历了近十年飞速发展的人工智能,作为赋能型技术,正需要找到适应的行业和场景体现出其独特的价值。
那么,数字时代的增强身份认证如何打造?既有安全又有隐私的电子证照如何实现?而人工智能的本质和真正价值将会如何在产业数字化中体现?
围绕人工智能和多模态生物识别领域和增强级数字身份认证技术的最新进展,眼神科技CTO江武明在「量子位·视点」直播中分享了他的从业经验和观点。
以下根据分享内容进行整理:
每个人从出生开始,就离不开“身份证明”。
刚出生的时候,需要出生医学证明,入学之前需要父母的户口本,上学需要学生证,再后面就是身份证等等。无论办理社保,还是去银行办业务,我们都需要证明“我是我”。上边这些证明都有一个共同点,就是依赖于外在的介质,我们需要一些外在的介质来证明“我是我自己”。
我和我的公司眼神科技在做的事情,就是希望通过你内在的生物特征来证明你:只要你站在那儿,我就应该知道这个人是谁,而不需要别的证件了。这是我们的宗旨和我们在做的事情。
眼神科技专注于生物识别领域20多年。这些年,我们打造了全球领先的多模态统一识别认证平台,实现了多种生物识别算法的融合识别和数据的统一管理,属于在全国乃至全球相对比较先进的技术。
接下来,我会从三个方面来进行今天的分享:
- 从我基于落地场景的十年从业经历思考,整个人工智能行业的本质到底是什么,它的价值又是怎么体现的?
- 依据我们公司生物识别技术的发展过程,多模态统一身份认证平台搭建的思路以及效果;
- 我们应对数字化所做的数字时代增强身份认证的整体方案。
人工智能的本质与价值
人工智能行业经历了近十年的飞速发展,从众星捧月到理性回归,我们AI的本质和真正的价值是什么?为什么这里要提到“众星捧月”和“理性回归”?
作为行业的从业者和观察者,我们能更深刻地感受到整个社会,包括投资方和VC行业对技术和从业的态度。
大概07、08年的时候,当时业界盛传只需要一页PPT就可以融资。确实是这样的,当时大家对这块有非常高的期望,我们叫“众星捧月”。
大概在2020年前后,我们再和一些人工智能同行交流的时候,发现好多同行已经不在了,乃至哀嚎遍地。因为经历了这么多年的发展,人工智能行业还没有找到特别好的变现途径,投资方对人工智能的态度也发生了急剧变化,甚至从“人工智能”到“人工智障”。
所以我说从“众星捧月”到“理性回归”,就像「量子位·视点」第一期的时候,袁进辉老师所提到的人工智能的三次寒冬。
我认为,这些年来大家对整个行业态度的转变主要来自于三个方面:
第一个方面是没有管理好预期,过高地估计了人工智能技术能够解决的问题,过早地在场景中说我们用人工智能技术来替代人。
随着时间的推移,人工智能公司最终是要进行项目落地。人工智能从高高在上到落入凡间,会出现期望值的落差:我们想象中的智能化、想象中人工智能做的事情,到真正落地产生的价值,实际是理想丰满、现实骨感。
逐渐社会上出现各种声音,投资方的想法也发生了化学反应。这是我认为态度转弯的第一个原因。
第二个原因就是之前这些人工智能的公司估值过高,偏研究院化。在2000年之前,可能整个人工智能公司的估值逻辑里面,应该还是说是赢家通吃,规模化效应等因素占比过高,导致整个业内的AI公司进行了军备竞赛级的人才争夺,直接影响了整个行业从业者的薪资待遇,包括人员的代际差距越来越高,用人方和需求方之间有非常大的差额。
这种现象导致AI企业在人力成本上的投入激增、 “研究院化”,研究院化会带来另外一个问题,就是工程落地的能力减弱,商业化进程降速。
最后一个,就是技术的实用性发展到了平台期。当技术高速发展的同时,资本的进入会导致行业形成技术的代际差距,或者说技术壁垒。这种壁垒有可能会让其在竞争中起到重要作用。
从2018年势头开始到2020年至今,对整个应用的效率、准确率等有帮助的实用性技术发展到了平台期。随之带来的问题是,AI公司投入的边际效应是递减的,会让后来者追逐赶超。
在AI赛道上,我们看到有后来者蜂拥而上、有先入者换道离场,AI企业需要打造技术的核心竞争力、找准赛道和应用场景,进行技术和商业落地的前瞻布局。
就这个行业现在的情况而言,是不是人工智能已经到了冬天呢?我认为,不是。当前也许正处于“春寒料峭”之际:春天恰好就在前面。
从商业上讲,整个行业回归理性、不再疯狂,正是落地开花、创造价值的好时机。《新一代人工智能规划》提出,预计到2030年,整个人工智能行业核心产业的规模超过1万亿,并将带动相关产业规模超过10万亿。
所以我认为这不是“寒冬”,这恰巧是一轮新的机会,是给真真正正做行业落地、做解决方案公司的新机会。
人工智能在没有解决问题之前,我们一般会统称为“人工智能”,但是解决问题之后,我们就会区分开来,比如说人脸识别、机器翻译、自动驾驶、智能拍照算法等等。AI技术本身是一种赋能型的技术,它不应该被当做一个行业来看,而应该是一种能力。
如果要发挥这种能力的最大价值,我们就需要找到与之相适应的行业和场景。在这些原本就存在高速增长的场景和赛道里面,通过人工智能降本增效来重塑整个行业的生产方式和利益分配,从而来达到它的价值的提升。技术不是最终的目的,是需要和产品、运营、营销、设计在一块,然后组装成一个新的产品或者解决方案,然后通过这种方式来获得商业回报的一种手段。它本身是一种手段,不是最终目的。
以前我参加过的一个论坛,有主持人问到我一个问题:“如果送一个新的人工智能创业团队一句话,你会怎么讲?”
当时我是这么说的,我们不能单纯以人工智能作为立脚点去创业,或者开启新的商业。意思就是要从AI概念的包装者变成AI赋能者,或者是变成具有落地能力和服务能力的行业落地者,通过这种方式去找行业的创业方向和相关的技术栈。只有这样,才会让创业路程或者说整个商业化路程走得相对更顺,发挥出它的最大价值。我们必须找到自己的行业和场景,然后做产业化升级,这才是最好的一种方式。
这么多年,眼神科技一直在路上,并且始终在思考怎样为我们的客户提供最好的价值。我们认为,我们之所以能够在众多竞争者中胜出,与我们的落地能力和服务能力是强相关的。
数字化与多模态生物识别技术的发展
生物识别技术发展历经这么多年,我们在研发场景里做了什么,以及这些技术未来的走向是什么?
这部分,我会给大家介绍一下我们各项技术的特点、流程和细节上的工作,包括我们与众不同的创新点和差异化。
指纹识别
眼神科技是我国从事指纹识别技术研发最早的一批公司,从98年开始算法研究,2003年研发成功。
指纹识别大家都不陌生,它更像是一种专家系统,最早是先用在法医或者法律上,通过犯罪现场残留的指纹信息来判断是不是同一个人。目前我们正常的指纹识别系统,当想采集到一个清晰的指纹时,会使用三种传感器。
一种是光学的,光线通过棱镜折射到指纹纹路上,然后进行模电转化,形成指纹的纹理特征;另一种是半导体的,根据指纹的凹凸不平,在半导体传感器上转换成电信号,然后就会出这张图;还有一种是超声波的3D指纹成像方案,这是目前主流的三种采集方式。
采集到这样一张指纹图像,我们会经过一个二值化操作,就相当于把这张图转化成这种二值化的图,之后进行细化,把这些纹线变成单像素的线,然后去做特征提取。我们可能知道的斗形、簸箕形等指纹这种分型,还可以通过指纹的端点和叉点来形成这样的一个特征的候选区域,在候选特征点里面存在一些假的,或者可能是因为图像处理算法或者说这种二值化算法带来的噪声,这时候我们就需要通过滤波操作,过滤后会形成一个特征,最后进行比对操作,其本质上是两个特征点集合的一个相似度比对的过程。
这是一个标准的指纹处理流程,每一步都是有标准的。眼神科技的指纹识别算法和采集器已经成为了公安部居民身份证算法和设备推荐厂商。
实际应用中是难以采集到实验室级别的指纹图像的,我们采集的图,可能有各种不同的情况,比如手指特别干或手指比较湿,或者手指有磨损的图像,采集的指纹图像五花八门的,我们需要把这些五花八门的图像恢复成“出厂设置“。
这个过程里我们也做了很多尝试,包括多重图像处理,双边滤波、信息补偿等,使得图像能够被正常采集并完成识别比对。这个算法获得了北京市科技进步发明二等奖,同时也获得了国务院颁发的“国家技术发明奖二等奖”。
人脸识别
2005年,眼神科技就完成第一版人脸识别算法研发,当时人脸识别还没有深度学习加持,我们做了很多传统算法的堆叠。
左上角这个图是人脸识别的流程,从原始的图像作为输入,然后我们会做图像的预处理,预处理之后会检测人脸,再基于五官特征进行人脸对齐,就姿态的矫正,通过t特征去做比对,或者1:1的verification认证,或者做1:1的recognition识别,这是一个基本流程。
我们刚开始做人脸识别的时候,做了很多传统的算法,包括基于boost的特征选择,还进行了基于gabor或者lbp、lpq特征的特征池构建专家系统生成识别的探索。
后来算法开始进入深度学习探索。我们最初从AlexNet到GoogleNet到Inception这种结构,追着凯明大神到ResNet结构。在这个过程中,我们的技术发展和算法提升,是随着数据增加和行业发展逐步往前走的。
现在都是端到端的深度学习来做了,这里也简单介绍一下我们做的创新工作,包括在一些比较低频率或者资源比较低的芯片上实现人脸识别,我们做了知识蒸馏、剪枝、量化这些相关工作以及一些损失函数上的创新。
虹膜识别
虹膜识别从采集到图像分割,需要分割出上下眼睑、巩膜、巩膜的边界、虹膜和虹膜的边界,然后去做环形展开,通过镜像变换来展开,展开之后去做特征提取和特征比对。
虹膜识别技术往前追溯,大家可能都会追到DAUGMAN的一篇文章,基于Gabor特征,基于这种滤波器来做虹膜特征的提取。
Gabor滤波器特别有意思,相当于它是一个用正弦波调制的加窗高斯函数,类似于有方向、有大小,我们通过不同的方向和大小的找寻,来做特征提取,这是一个相对比较传统的算法。我们基于这个特征参数选择做出了我们第一版比较成熟的算法,后来我们在这些算法上做一些演进,最后针对特定的任务,用DL的方式来做算法的提升,比如基于分割的虹膜区域定位,噪声模板生成等。
在做特征提取的时候,因为Gabor是有超参数的,比如说刚才提到的方向和大小,这些参数的选择其实非常需要经验,而且可能随着传感器的不同还会变化,那么它的泛化性怎么保障?
于是,我们在特征提取方向也开始使用深度学习,并且我们还想保持Gabor的这种特性。我们一般会用一个Gabor的核函数来做初始化,去控制整个学习率,相当于是用Gabor来做初始化,最终会学到一些类Gabor的滤波器,然后再来做特征提取。这种效果还是非常明显的,在美国国家标准局进行的NIST测试中,我们取得了全球第三、中国第一的成绩。
提起虹膜识别,还有另外一个话题,那就是虹膜识别需要专用的采集设备。因为大家可以看到它识别的是特别详细的纹理,为了识别这种纹理,我们必需使用一个具备非常高解析力的镜头,就是俗称的微距镜头。然而这种微距的镜头,一方面是它的采集范围会特别小,我们需要去配合;另外一方面就是微距的镜头,一般情况下按照光学特性,它的焦距就不会太大。就是说我必须在距离镜头前后多少的范围内才能采集到清晰的图像,这就会对它的使用场景带来一些影响,这也是我们倡导多模态的另外一个原因。
指静脉识别
指静脉识别对我们而言是相对比较新的一项技术。
指静脉采集的图像是我们手指第二关节的这段静脉,上图有一张采集的示意图,我们通过侧打光或者上打光的方式,让近红外的光照到手指上。因为每个人血管里面的血氧含量不一样,会导致血管的成像不一致,我们也会结合图像处理和识别的经验,来做识别和比对。
现在国内的一些银行以及社保行业在使用我们的产品和算法。我们不仅做算法,我们还要做前端的设备和后端的这种整个比对平台,从前到后一整套的解决方案和应用。
几种单一生物识别技术对比来看,从便捷性上讲都还是可以的,除了虹膜识别,因为它受限于采集设备的光学特性,需要在一个特定范围或者采集距离内,来实现这种虹膜采集,所以说它的便捷性可能就差一点。
准确性,虹膜识别在这四种模态里面是最高的。
稳定性,指纹会受到长期的劳作或者脱皮等影响,导致指纹识别失效或不好用;人脸识别会随着年龄变化受影响;虹膜识别基本上终生不变,出生之后两三周左右就稳定了,之后就终生不变了;静脉识别相当于我们的血管,也是终生不变的。
所以每一项技术,都会有自己的优缺点,鱼和熊掌不可兼得,安全精准和便捷友好是天平的两端。在一个封闭系统里面,如果我们不引入新的信息或者新的解决方案,安全和便捷是一个相悖的命题,越安全,就越不方便,单一模态很难在安全性和便捷性上做到非常好的平衡。
静脉识别相当于唯一一个在你的身体里面的、平时不可见的生物特征,只有在特殊设备且你本人主动配合的情况下才可以采集到。虹膜也是一样的,如果不在适当的采集距离下,很难通过不配合的方式采集到。所以这两种方法还是相对安全的。
所以说安全和便捷至少要考虑两个方面,一个是于识别算法本身的安全,另外还有我刚才提的模态本身的安全和便捷。
在做判别分析的时候,我们往往考虑两类错误:第一类错误我们叫拒真,我们有可能会把真值的拒掉,就是我非常武断地说你就是个坏人,可能是个拒真。
第二种错误就是认假,我有可能被会把假的当做真。在拒真和认假之间,我们一般会通过所谓的阈值来控制天平的两端,比如如果拒真越高,认假就会相对低一些。单一模态难以同时兼顾安全精准和便捷友好。
基于过程中遇到的这些问题,我们研发了多模态融合技术,在我国,多模态技术我们眼神科技应该是最早倡导的,我们CEO周总应该是这个词的原创者,如果从互联网上搜的话,大概07年08年的时候就有相关的倡导和宣传。
为什么会有这样的格局,其实分为内因和外因。外因是我们发现任何一项技术都有它自己的短板,比如指纹识别可能有的人是天生指纹比较浅采集不到,虹膜识别的体验问题,静脉识别又相对推行得比较晚,便捷性上也有一些问题。每一个技术在某个行业或场景可以发挥作用,但是又都可能遇到一些问题。在这些外因的推动下,我们需要去做替补或者组合式的解决方案。
内因是刚才我提到过的我们在做算法训练的时候,发现深度学习算法在做人脸识别相关训练时,眼部区域的响应很高,通过融合算法能将单一模态识别错误率降低3-4个数量级。同时不同介质本身还能产生不同识别结果,我们会对每一个模块的结果做决策级的融合,比如我们通过集成学习ensemble learning这种方式,bagging或者bossting的方法来做整个集成学习,相当于我们在特征和决策层同时做了融合,实现整体准确率的提升。
我们的多模态方案可以做到全国亿级数据库去做1:N的搜索,都不会有问题。
在做了这么多年的这种生物识别之后,我们到底沉淀下来什么?从研发的角度讲,我们一开始就在沉淀我们自己的训练平台。
最初我们的想法很简单,把图像处理过程涉及到的图像处理算法,包括我们自己的改进、参数的选取这些东西,我们全给模块化后放到一个平台上。
现在深度学习流行之后,我们开始往深度学习上迁移,把深度学习和SVM、逻辑回归这些传统模式识别算法,还有图像处理的传统算法,都放到了一个平台上来做统一的管理和调用,我们称之为训练平台,内部叫“女娲“。在这个平台我们能实现数据处理,算法开发,包括我们预定义的算法,和API这种多引擎的框架支持。
逐渐地,我们也会向合作伙伴去开放,为他们提供能力,将产业AI化,需要在产业研发的过程中把AI工程化这件事情推向客户,让大家对人工智能的算法生产和获取,变得更容易。
其实深度学习本身降低了整个算法研发的门槛,但是我们认为它还不够低。我们还是会去做一个这样的平台,把这个平台通过低代码的方式提供给客户,这个是未来的规划。现在我们这些算法大部分都是在这个平台上生成出来的,这个平台提供了视觉的能力,我们可以很快的基于视觉的需求来生成我们的方案和产品。
数字时代的增强身份认证
数字化,是势不可挡的。
前段时间马云先生说了一句话,意思是未来20年可能不确定的事情非常多,但唯一确定的是我们都不可避免的会受到数字化的冲击。数字化不是一个加分项,而是一个必选项。
随着《“十四五”数字经济发展规划》、《关于银行业保险业数字化转型的指导意见》、《关于加快推进电子证照扩大应用领域和全国互通互认的意见》等政策的陆续出台,产业数字化转型提振加速,电子证照如火如荼。
2022年最重要的一个战略技术趋势,就提到一些“数据编制”,从技术层面对数字化的支撑。管理学大师德鲁克曾经说过,企业的目的是创造顾客,只有顾客购买了这个商品服务,企业才能获得经济资源。
为什么要说这个?因为其实数字化眼花缭乱,最终我们还是要回到它的出发点:数字化的本质是以客户为中心,为客户提供定制化、增值化的服务,让客户满意,从而获得你整个商业的增值和价值。
另一方面是枢纽、场景数据和应用需要,从我这边产生一个链接,主要是对人来讲。
统一身份认证,通过场景我们会以ID为索引深入到场景提供大数据的服务,这是人工智能发展的愿景。我们的ABIS统一身份认证平台,在平台上面可以集成不同的算法、不同的厂商、不同的模态,然后对外提供统一的服务。
我们认为未来这个行业需要一个相对开放的生态,需要相对开放的态度来承接这些事情,我们这个平台就是一个开放的能力平台,在这个能力平台上,我们可以拥抱整个生态合作伙伴,为大家提供个性化的服务,这是我们的一个核心产品。
为了实现技术的价值,我们从平台到软硬件具备完整的产品矩阵,从前端的IT设备到ICT的智能互联,再到PASS层的服务引擎,再到SARS平台以及定制化的行业应用整体解决方案。所有行业的解决方案都是以我们的ABIS平台为支撑,然后去深入行业和场景来解决他们的一些问题。
人工智能所带来的智能生活,由“识你”做入口,“懂你”做基础,最终必然会落到数据和算力上。我们相信,眼神科技的ABIS多模态统一身份认证平台同时可以解决数据管理和数据孤岛问题,有助于促进行业升级和降本增效,最终赋能产业数字化。
关于「量子位·视点」
量子位发起的CEO/CTO系列分享活动,不定期邀请前沿科技领域创业公司CEO/CTO,分享企业最新战略、最新技术、最新产品,与广大从业者、爱好者探讨前沿技术理论与产业实践。欢迎大家多多关注 ~
需要观看直播回放的小伙伴,请戳以下链接吧~
https://www.bilibili.com/video/BV1hv4y1u7s3
— 完 —
量子位 QbitAI
关注我们,第一时间获知前沿科技动态
- 12/21来成都!携手多点、TuGraph、DB-GPT社区一起玩转 DB+AI2024-12-16
- 第五届长沙·中国1024程序员节,即将震撼来袭!2024-10-14
- 国产全AI游戏来了?!大模型直出开放世界游戏,有声可交互2024-12-13
- 扒一扒大模型应用隐形冠军:服务1600+企业、200+业务场景,分分钟就可构建专属应用2024-12-12