这家低调的上海AI公司,在CVPR上再夺一冠
现在,风向正在开始转变。
乾明 发自 凹非寺
量子位 出品 | 公众号 QbitAI
一年一度CVPR,一年一度全球AI技术竞技场。
这既是技术交流的最佳舞台,也是技术的最好演武场。凡有真能力者,皆希望从这里展现实力。
这一次,就有个低调的中国AI公司,在这里露出锋芒。
DeepBlue,深兰科技,创办于2014年。
在Cassava Disease Classification挑战赛中,从全球88个团队提出的1300多种方案中脱颖而出,一举拿下冠军。
CVPR挑战赛冠军
深兰参加的挑战赛,由FGVC举办,名为Cassava Disease Classification,是一个根据木薯的叶子区分不同种类的木薯疾病的任务。
目标是学习一个模型,使用训练数据中的图像,将给定的图像分类为4个疾病类别或健康叶子。
FGVC,是CVPR中的Workshop,全称为Fine-Grained Visual Categorization(细粒度图像分类),是计算机视觉社区刚开始解决的最有趣和最有用的开放问题之一。
与以往大部分机器学习任务不同,这次挑战赛中,主办方提供的训练数据中,未标记的图片有12595张,而标记的数据只有9436张。
未标记的数据要多于标记的数据33%,对于识别分类任务来说,这直接加大了挑战赛的难度。
虽然挑战赛规定,可以全部使用标记数据集训练模型,但想要获得更高的精度,必须要让模型更好地理解这些未标记的数据。
光这一难题,就足以筛掉不少选手,一举夺魁的深兰从三方面入手:
首先是数据处理方面。
为了充分利用未标记的数据集,深兰利用在测试集表现最好的融合模型给这些数据集贴上伪标签,并用训练集和伪标签数据集训练模型。
但如果全部采用这些数据,会导致模型在伪标签上过拟合。经过线下实验后,他们最终以0.95的阈值筛选出一半的数据作为添加到训练集的伪标签数据。
从而让未标记数据得到充分利用,也为模型得出更高分数打下了坚实的基础。这一能力,在实际的应用场景中,也非常关键。
具体的落地过程中,大多数都是未标记的数据,能够利用好数据,是一家AI公司的基础,从这个角度,也能看到深兰科技的功力。
然后是模型选择。
想要提高模型精度,一个直接的方法是模型集成。在挑战赛中,团队训练了大量在ImageNet上表现优良的模型。
在采取多种融合方式之后,最终发现SE_ResNeXt50、SE_ResNeXt101、SENet154以及DenseNet201等模型按照归一化后权重的融合效果最好,在测试集上的准确率达到了0.92516。
为了降低过拟合的风险并提高了模型鲁棒性。在利用交叉验证和传统的数据增强方式之外,他们还使用RandomErasing和Cutout的方式。
而且在模型训练的过程中,基于Mixup和label smoothing的训练方式,直接将Top1准确率提高近一个百分点,也使得计算损失函数时能有效抑制过拟合现象。
综合以上种种策略,深兰团队最终成功完成Cassava病变细微差别区分任务,并以0.9386的分数获得冠军,领先第二名0.00309——这样的差距看起来不大,在工业领域却可能是可用与否之别,甚至放到医疗领域,都可能把“救命”AI向前推进一大步。
而且深兰方面介绍,参赛初心,就是冲着更好落地而去。
比如在工业领域,应用上述的方法,可以进一步提高不同物体的识别精度,特别是对区分相似类别的物体具有比较大的意义。
还有高速公路上识别不同车辆的型号、在野外识别不同物种、商店购物时识别不同的商品等等场景,细粒度图像分析都扮演着极为重要的角色,已经在深兰为客户提供的解决方案中进行实践。
低调AI公司
在国际计算机视觉顶会上夺冠,深兰科技解释,只是多年技术研发积累的牛刀小试。
在CVPR上,除了这一挑战赛,深兰科技还在目标检测迁移学习、目标跟踪迁移学习、大规模检测插值探索等挑战赛上分别斩获亚军和季军。
在很多人印象里,深兰科技的“出镜率”并不高。创办于2014年,合作伙伴中早有阿里等巨头,不过深兰形象,对外展示也更多是面向客户介绍行业落地解决方案,秉承了上海公司一贯的低调特征。
这次挑战赛获得冠军、CVPR上露锋芒,可以借一斑而窥其技术实力。
就在今年,深兰科技还分别摘得PAKDD 2019 AutoML3+ 挑战赛以及IEEE ISI World Cup 2019的冠军,内部也已经将AutoML等前沿技术应用在各个产品和解决方案当中。
这些,同样得益于其对技术研发的重视与积累。
所以CVPR一战,全球顶会高手过招,但胜出背后的意义,可能不止于名次本身。
深兰科技成立于2014年,一直强调“人工智能基础研究和应用开发”,并定位为一家“平台型的AI MAKER”。
至今,已经与包括清华大学、上海交大、中南大学、上海大学、联想集团在内的多个国内外知名企业、院校和卢森堡国家实验室等,建立了智能驾驶技术、智能和精密制造、数据和金融安全、人工智能、AIoT智联网、人机交互、AI芯片、量子计算等多个相关领域的联合实验室,共同构筑了深兰系全球性的研发科研体系
2017年,深兰科技开始加大应用领域投入,涉足AI+各大应用领域,推进研究成果落地转化,打造平台化的算法输出、集成搭载和交付硬件的全业务链。
其官方网站显示,深兰科技的布局极为广泛,覆盖的领域有:智能驾驶、智能机器人、生物智能、智能零售、智能语音、安防、芯片、教育和智能城市,产品与应用有30多项。
在中国,能够提供这么多领域解决方案的公司并不多见,深兰科技已然走在了前列。
深兰科技介绍称,公司一方面深耕智能零售、智能驾驶、智慧安防、智能机器人等细分领域,综合配套人工智能产品。
另一方面前瞻性的战略布局AI芯片、生物医疗、国防军工等研究领域。战略是立足上海,服务世界,目前的全球布局为欧洲、中东和东南亚。
值得一提的是自动驾驶领域,深兰科技推进神速,而且落地全球。在欧洲已经和希腊、意大利签署了智能城市合作协议,智能驾驶公交也有望很快在泰国和欧洲等国家落地。
在国内,广州近日发放的新一批自动驾驶路测牌照中,深兰科技的熊猫智能公交车也名列其中。而且值得注意的是,此次发放的路测牌照中,对5G等应用也颇为看重,而深兰熊猫智能公交,不仅是首批,而且也是唯一客车。目前,在5G和自动驾驶都势头凶猛的粤港澳大湾区,卡位意义自不必言。
所以,如何能将基础研究和产业落地同时做好?深兰也分享了经验。
为了促进产品的创新研发,深兰科技内部形成模式。先采取研究院架构,当这些研究院架构产生出的科研成果经过技术评委评分通过之后,就会相应的成立事业部,并配上相关人员进行产品研发。
而上述研发模式也赢得认可,除了各项业务落地和合作,深兰也获得产业资源和战略VC加持。
截至目前,深兰科技已陆续获得DNA 基金、云锋基金、华映资本、中金智德、绿地金融等知名投资机构的战略投资。截止到今年1月初,深兰科技就已经在全国形成了近千人的团队,整体研发人员占比在60-70%左右。
不过,比起融资消息,深兰认为更关键在于技术推进,以及如何将前沿技术落地产业。
重估AI公司评价方式
这实际也日益成为行业发展共识。
之前,AI发展更多以“融资”作为新闻,以技术大牛作为评估公司实力的维度。行业内的新消息,也更多展示融资额、估值和人才履历。
这固然是实力考量的一面,但随着AI技术成熟与大众化,合作、落地和赋能产业,正在成为衡量AI公司发展的另一面——而且日益成为主旋律。
技术壁垒仍在,大牛专家仍不可小觑,但在整个发展进程中,已经被落地能力、营收等维度冲淡。
如何评估一家AI公司?现在,风向正在开始转变。
于是像深兰这样的AI公司,之前低调潜行,但在新趋势驱动下,会被越来越多推至台前。
- 滴滴副总裁叶杰平离职,他是出行巨头的AI掌门人,战胜Uber中国的关键科学家2020-09-07
- 董明珠的格力空调卖不动了:上半年营收同比腰斩,24年来首次被美的反超2020-09-01
- 手机配件市场上的“隐形巨头”:80后长沙夫妻创办,IPO首日市值逼近600亿2020-08-31
- 寒武纪半年报:每天亏百万,销售力度提升营收反降11%,上市高峰市值跌去40%2020-08-30