网上的假货太多,你把握不住的,让AI来
阿里AI“打假师”,让假货商家少挣W
萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
还在发愁网购的东西可能是假货?
现在,阿里自己搞了个AI打假师,让算法来协助打假了!
只要让它看一眼想辨认的商品照片,它就能在几十毫秒的时间里,判断出商品的真假。
相当于你一眨眼(约0.5秒),它就已经识别了10个假货。
不仅如此,阿里安全团队还公开了一个包含100万张正版商标照片的数据集Open Brand,让更多的人能参与到“AI打假”行动中来。
那么,AI究竟如何打假呢?
对高仿和山寨同时出击
首先,需要了解假货的售卖套路。
由于没有售卖正品的资质,假货店铺需要采用各种手段,逃过追查:
其一,“高仿”类商品。这种假货会对logo进行模糊处理、部分遮挡,甚至用上对抗样本攻击(没错,就是这么高科技)。
在网购平台上,我们看到的假货图片往往是这样的:
这些商品的外观,往往与品牌商品非常接近,然而并没有产品保障。
其二,“山寨”类商品。这种假货会对logo进行PS、并在注册时使用仿冒名称,以躲过算法的识别。
可别说,这些山寨货,玩起“仿妆”来很有一套:
用户一不留神,就容易中圈套,然而平台人工审查的速度,又实在有限。
为此,阿里安全团队决定,搞个AI“打假师”,更快地进行打假。
AI打假模型,最需要解决的,是这3个问题:
- 如何解决小目标识别的问题?(图片中的商标logo往往非常小)
- 如何解决logo模糊变形打码、甚至引入攻击样本的问题?
- 如何准确识别“山寨”版logo?
为了解决这些问题,阿里安全团队设计了一个名为Brand Net的模型。
据阿里安全图灵实验室资深算法专家华棠介绍,模型主要分成三部分:
Cascade-RPN,这部分重点解决了商品图片中检测的logo“时大时小”的问题,提升了目标检测准确率、小目标召回率。
Soft Mask Attention,这部分采用迁移学习,构造了一个检测框(bounding box)特征到分割(segmentation)特征的映射空间,有效提升logo较小、或发生形变时的检测准确率。
Feature Representation and Instance Retrieval,这部分使得模型能在新logo加入时进行弹性扩展,不需要再对模型进行重复训练。
当然,Brand Net作为AI“打假师”的招数之一,主要还是用于比较有名(商品照片非常多)的品牌,因为它们的商品图片更多,训练出来的模型效果就会更好。
△数据量不均衡的长尾问题
对于一些商品照片不多的新品牌,AI“打假师”就会通过另一种方式,来提升自己的鉴别能力:
以半监督的方式,包括3D数据增强,领域迁移(HDA),自蒸馏等,来进行训练。
测试表明,这个AI“打假师”,在NVIDIA的多种显卡(T4、P100、V100)上都已经取得了非常快速的检测效果,平均在30~50ms内就能识别一件假货。
而且,识别的效果还非常好,线上图片的识别准确率,达到了95%。
当然,网购平台不会完全根据AI“打假师”的判断结果,直接对商家进行处罚。
在AI“打假师”找出疑似售卖假货的商家后,平台还会从商品内容、售卖信息、资质、消费者反馈等多个维度进行调查,以判断商家是否存在卖假货的情况。
目前,阿里安全团队已经利用技术打假,协助警方侦破了好几起案件,光是奢侈品包包假货特大案就有6起,并捣毁了生产窝点10余个、抓获犯罪嫌疑人150余名。
其中,就包括2020年8月,上海警方公开过的“上海青浦生产销售假冒LV注册商标商品案”,这起案件的涉案金额超亿元。
听起来确实很coooool。
更酷的是,阿里已经把用于训练的logo数据集给公开了。
训练的logo数据集已公开
据阿里安全团队介绍,这个公开的数据集名为Open Brand。
Open Brand是全球最大的奢侈品logo数据集,包含500多个奢侈品大类、1000多个子类商标,累计超过100万张商标logo图片。
每张图片,都按COCO结构进行了详细标记:
logo图片的数量也是吊打其他数据集……
据阿里安全团队介绍,数据集中的照片数据,均来源于淘宝、天猫、1688、Aliexpress,以及谷歌和百度搜索引擎。
根据公开数据协议,这些数据集中的照片,仅用于学术研究,不能进行商业化使用。
AI打假行动,你也可以参与
为了找出更好的AI打假模型,阿里安全团队搞了个「鲁棒性标识检测挑战赛」,奖金30万。
简单来说,身经百战的阿里安全团队,将会化身“假货商家”,对参赛者提交的AI打假模型做出各种考验。
例如,故意对logo图片进行各种处理(模糊、加水印、生成对抗样本),看看AI打假模型能否准确识别。
而参赛者们用来训练的数据集,就是这次公开的大型logo数据集Open Brand,报名后就能获取。
只要参加比赛,你就能获得与高校团队、安全大牛一较高下的机会。
目前,排行榜还在不断刷新中。
你心动了吗?
阿里AI打假比赛(可获取公开数据集):
https://tianchi.aliyun.com/competition/entrance/531888/information
Brand Net论文地址:
https://arxiv.org/abs/2012.07350
- 首个GPT-4驱动的人形机器人!无需编程+零样本学习,还可根据口头反馈调整行为2023-12-13
- IDC霍锦洁:AI PC将颠覆性变革PC产业2023-12-08
- AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型2023-12-03
- 苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型2023-12-07