网上的假货太多，你把握不住的，让AI来

萧箫 2021-05-21 14:37:30 来源：量子位

阿里AI“打假师”，让假货商家少挣W

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

还在发愁网购的东西可能是假货？

现在，阿里自己搞了个AI打假师，让算法来协助打假了！

只要让它看一眼想辨认的商品照片，它就能在几十毫秒的时间里，判断出商品的真假。

相当于你一眨眼（约0.5秒），它就已经识别了10个假货。

不仅如此，阿里安全团队还公开了一个包含100万张正版商标照片的数据集Open Brand，让更多的人能参与到“AI打假”行动中来。

那么，AI究竟如何打假呢？

对高仿和山寨同时出击

首先，需要了解假货的售卖套路。

由于没有售卖正品的资质，假货店铺需要采用各种手段，逃过追查：

其一，“高仿”类商品。这种假货会对logo进行模糊处理、部分遮挡，甚至用上对抗样本攻击（没错，就是这么高科技）。

在网购平台上，我们看到的假货图片往往是这样的：

这些商品的外观，往往与品牌商品非常接近，然而并没有产品保障。

其二，“山寨”类商品。这种假货会对logo进行PS、并在注册时使用仿冒名称，以躲过算法的识别。

可别说，这些山寨货，玩起“仿妆”来很有一套：

用户一不留神，就容易中圈套，然而平台人工审查的速度，又实在有限。

为此，阿里安全团队决定，搞个AI“打假师”，更快地进行打假。

AI打假模型，最需要解决的，是这3个问题：

如何解决小目标识别的问题？（图片中的商标logo往往非常小）
如何解决logo模糊变形打码、甚至引入攻击样本的问题？
如何准确识别“山寨”版logo？

为了解决这些问题，阿里安全团队设计了一个名为Brand Net的模型。

据阿里安全图灵实验室资深算法专家华棠介绍，模型主要分成三部分：

Cascade-RPN，这部分重点解决了商品图片中检测的logo“时大时小”的问题，提升了目标检测准确率、小目标召回率。

Soft Mask Attention，这部分采用迁移学习，构造了一个检测框（bounding box）特征到分割（segmentation）特征的映射空间，有效提升logo较小、或发生形变时的检测准确率。

Feature Representation and Instance Retrieval，这部分使得模型能在新logo加入时进行弹性扩展，不需要再对模型进行重复训练。

当然，Brand Net作为AI“打假师”的招数之一，主要还是用于比较有名（商品照片非常多）的品牌，因为它们的商品图片更多，训练出来的模型效果就会更好。

△数据量不均衡的长尾问题

对于一些商品照片不多的新品牌，AI“打假师”就会通过另一种方式，来提升自己的鉴别能力：

以半监督的方式，包括3D数据增强，领域迁移（HDA），自蒸馏等，来进行训练。

测试表明，这个AI“打假师”，在NVIDIA的多种显卡（T4、P100、V100）上都已经取得了非常快速的检测效果，平均在30~50ms内就能识别一件假货。

而且，识别的效果还非常好，线上图片的识别准确率，达到了95%。

当然，网购平台不会完全根据AI“打假师”的判断结果，直接对商家进行处罚。

在AI“打假师”找出疑似售卖假货的商家后，平台还会从商品内容、售卖信息、资质、消费者反馈等多个维度进行调查，以判断商家是否存在卖假货的情况。

目前，阿里安全团队已经利用技术打假，协助警方侦破了好几起案件，光是奢侈品包包假货特大案就有6起，并捣毁了生产窝点10余个、抓获犯罪嫌疑人150余名。

其中，就包括2020年8月，上海警方公开过的“上海青浦生产销售假冒LV注册商标商品案”，这起案件的涉案金额超亿元。

听起来确实很coooool。

更酷的是，阿里已经把用于训练的logo数据集给公开了。

训练的logo数据集已公开

据阿里安全团队介绍，这个公开的数据集名为Open Brand。

Open Brand是全球最大的奢侈品logo数据集，包含500多个奢侈品大类、1000多个子类商标，累计超过100万张商标logo图片。

每张图片，都按COCO结构进行了详细标记：

logo图片的数量也是吊打其他数据集……

据阿里安全团队介绍，数据集中的照片数据，均来源于淘宝、天猫、1688、Aliexpress，以及谷歌和百度搜索引擎。

根据公开数据协议，这些数据集中的照片，仅用于学术研究，不能进行商业化使用。

AI打假行动，你也可以参与

为了找出更好的AI打假模型，阿里安全团队搞了个「鲁棒性标识检测挑战赛」，奖金30万。

简单来说，身经百战的阿里安全团队，将会化身“假货商家”，对参赛者提交的AI打假模型做出各种考验。

例如，故意对logo图片进行各种处理（模糊、加水印、生成对抗样本），看看AI打假模型能否准确识别。

而参赛者们用来训练的数据集，就是这次公开的大型logo数据集Open Brand，报名后就能获取。

只要参加比赛，你就能获得与高校团队、安全大牛一较高下的机会。

目前，排行榜还在不断刷新中。

你心动了吗？

阿里AI打假比赛（可获取公开数据集）：
https://tianchi.aliyun.com/competition/entrance/531888/information

Brand Net论文地址：
https://arxiv.org/abs/2012.07350

人工智能假货网购

萧箫

网上的假货太多，你把握不住的，让AI来

对高仿和山寨同时出击

训练的logo数据集已公开

AI打假行动，你也可以参与

相关阅读

苹果再失机器学习大牛！负责siri等项目，现今回归非盈利机构

一文看尽Google I/O大会：史上最快手机全语音操控，不开口也能打电话，安卓Q登场

OpenAI提议像管核设施一样管AI！预言十年内AI产出与大公司相当

创新工场“AI蒙汗药”入选NeurIPS 2019，3年VC+AI布局进入科研收获季

日活两亿的快手，如何用AI理解视频、做好分发

Keras创始人：过去6个月，深度学习岗位已崩溃

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把