AI如何变革家居软装？拍图就能搜商品，深度学习平台飞桨新玩法

智能车参考 2019-06-04 11:44:32 来源：量子位

允中发自凹非寺

量子位编辑 | 公众号 QbitAI

随着消费互联网流量红利的逐渐殆尽，移动互联网的主战场转向产业互联网，家居行业3D数字化进程高歌猛进，行业开始沉淀下了大量的与真实商品对应3D模型数据，如何应用真实商品的3D数据的多维度特点，来改善消费者的购物体验具有重要意义。

国内地产交付房子时存在毛坯房和精装房的区分。

△ 图（毛坯房）

△ 图（精装房）

根据次元视界2018年上百家一二线城市的消费者调查数据（来源：http://wap.panguvr.com/docs/detail/134）显示，90%的消费群体会在软装装修前上网搜图。但如今，线下实体店仍然占据80%的销售额，线上流量无法直接转化成消费行为是行业中的一大痛点。如何将线上线下的优势结合，优化资源配置，快速实现线下家居实体业的「进化」，成为家居企业发展的重中之重。

但实现线下家居实体业的进化存在诸多难点：

从消费者角度看信息大爆炸时代内容庞杂，很难利用效果图在线上直接搜索到，或在线下快速找到想要家居产品。即使搜索到，也难以想象其实际的大小、摆放效果等。而逛实体店“按图索骥”，又会有店铺分散、产品分散，费时费力的问题。

从家居行业商户角度看，线上销售渠道虽然逐渐丰富，但随之而来的也是大量卖家涌入线上平台，线上流量争夺激烈、红利减少，产品大概率为2D图片，用户体验差。

总结来说，随着新零售、大家居、互联网家装等新理念席卷，“线上+线下”双融合的家装营销模式更符合行业发展趋势。引导消费者通过效果图来直接展开消费行为为产业革新的关键。

这些问题，随着近年来卷积神经网络（Convolutional Neural Network, CNN）为代表的深度学习模型的广泛应用，有了很好的解决方法。

次元视界应用飞桨（PaddlePaddle），将Faster R-CNN应用于效果图真实商品检测，并结合可视化技术（Web3D、混合现实、全景云图），为消费者带来高品质的视觉感知服务，实现以图搜商品。

飞桨（PaddlePaddle）是百度自研的集深度学习框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台，有全面的官方支持的工业级应用模型，涵盖自然语言处理、计算机视觉、推荐引擎等多个领域，并开放多个领先的预训练中文模型。

有关飞桨（PaddlePaddle）的更多信息，请查看：

http://www.paddlepaddle.org/

在下文中，我们将详细介绍飞桨（PaddlePaddle）如何与Faster R-CNN结合起来，实现以图搜商品的功能。

什么是Faster R-CNN

Faster R-CNN可以看作特征提取网络、Fast R-CNN和区域建议网络（Region Proposal Network, RPN）的组合。根据相关资料显示，以图搜商品的搜索准确率，会根据物体类别有所不同，大致分为三个类别：

平面物体，如画报、装饰画等，准确率可达到 95%以上；
三维刚性物体，如立体家居模型，准确率在 80%以上；
对于柔性或纹理单一物体，如纺织类、纹理单一的物品等，识别相对困难。

目前，图像搜索在某些垂直领域已经可以成熟应用，然而面向“万物搜索”，仍有较大的提升空间。不过，对于家居行业来说，商品基本上是在平面物体、三维刚性物体上展示，因而在搜索时可以达到较高的准确率。

家居商品检测方法

效果图Object Detection

以图搜商品将解决文字搜索无法精确描述场景的问题，如海淘搜索商品时语种不对称、实时场景中看到心仪商品但信息不对称的情况等。不过，想要对效果图进行解锁提取家具的单品图，我们需要采用目标检测（Object Detection），目的是将效果图中的每个家具独立框选出来，并且识别出框中的是沙发、茶几、电视柜、床等家具类别。

目标检测的第一步是要区域提名（Region Proposal）,类似于光学字符识别（OCR），简单的说就是尽量切碎到小的连通域，然后再根据相邻块的一些形态学特征进行合并，所以一定程度上可以说区域提名是更难的一个问题。

从机器学习的角度来说，问题的核心在于如何有效地去冗余候选区域，其实冗余候选区域大多是发生了重叠，选择性搜索利用这一点，自底向上合并相邻的重叠区域，从而减少冗余。

单品图特征检索

通过Object Detection我们可以提取效果图获得家具单品图和单品类型，假设我们提取了类型为床的单品图。

△ 图（床搜索原图）

输入单品图和类型，快速找到相似的商品

感知哈希（hash）算法的应用

感知哈希（hash）算法是一个有可比较的哈希函数的类，图像特征被用于生成独特（但不是唯一）的指纹，而这些指纹是可比较的。提取家具图像hash值的我们需要进行如下步骤：

缩小尺寸：去除高频和细节的最快方法是缩小图片，将图片缩小到8×8的尺寸，总共64个像素；
简化色彩:将8*8的小图片转换成灰度图像；
计算平均值：计算所有64个像素的灰度平均值；
比较像素灰度：将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0；
计算hash值：组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。

3D数据采集

通过实时渲染技术快速生成每个家居3D模型不同角度的几十张图像数据,并且混合复杂背景提升训练后的识别准确率。

△ 图（多角度图片示例）

基于3D模型我们还可以采集商品的搭配色彩表、材质信息、尺寸信息等更多维度的数据集，为之后的软装搭配智能推荐算法打下基础。

用不同深度学习框架的体验

首先我们先尝试的是谷歌的TensorFlow 深度学习框架，但在衡量本土化支持、开发者支持以及之后的商业化潜力后，我们决定无缝迁移到百度的飞桨（PaddlePaddle）。

由于之前《次元视界》已经基于TF 的Fast RCNN 做了将近三个月的大量数据联系，迁移到飞桨（PaddlePaddle）后我们有了以下发现——飞桨（PaddlePaddle）更完美地支持了模型并行和数据并行多机训练。由于我们的数据，是每个家居3D模型不同角度的几十张图像数据、海量模型，包括大家居所有品类，这就意味着需要处理大于几个Terabyte的数据。

飞桨（PaddlePaddle）的运算占用内存小、速度快、支持并行，对我们的工作量非常适合。经过一周的训练，我们的模型轮廓识别准确率已达到89%，高于TF11%的识别率，并且其中的False Positive Rate (FPR) 也比之前减少了32%。

总结

产业互联网时代，互联网平台掌握更多的数据量，与之相关的处理、计算、分析等实践基础更完善，从而帮助企业实现数字化转型。而卷积神经网络具有多层次语义表达能力，不同层所提取的图像特征具有不同含义，选择不同卷积层会提取出不同层次的特征，在未来发展上极具优势。

本应用以家居行业效果图和真实商品库为研究对象，综合考虑消费者软装搭配选购的特点，展开以效果图搜索家居3D商品库数据集，通过3D模型的多维度特性增强扩大样本规模，实现对效果图的快速解锁、检索和匹配。

结合次元视界的3D模型自动化处理技术，全球各类模型共享网站都可作为数据集构建，该数据集可获取几百万家居模型和几百种分类，可覆盖全球家居的商品类别和外观。

未来基于3D数据构建的样本系统，可将积累的用户数据最大化的利用，计算机将建立和推测用户的需求模型以及各种解的模型，从而主动筛选出最佳内容，即未来将扩展为精准的可结合户型、喜好的家居软装搭配智能推荐系统，成为一个全新的家居流量入口。

— 完 —

PaddlePaddle 深度学习

智能车参考

长城汽车自研芯片点亮！提前布局下一代架构RISC-V，魏建军：不能再受制于人2024-09-27
腾讯云发布自研大数据高性能计算引擎Meson，性能最高提升6倍2024-07-04
Intel2024-03-18
数字员工全新发布加速企业转型2024-01-15

AI如何变革家居软装？拍图就能搜商品，深度学习平台飞桨新玩法

相关阅读

520礼包 | 情感分析算法从原理到PaddlePaddle实战全解

莱斯大学&英特尔新算法证明CPU加速深度学习优于GPU！老黄核弹警告

微信正在用的深度学习框架开源！支持稀疏张量，基于C++开发

一文看懂如何使用模型转换工具X2Paddle

飞桨端到端开发套件揭秘：低成本开发的四大秘密武器

LeCun：概率论无法实现真正AI，我们要退回原点重新开始

热门文章

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

蔚来李斌：一年减少了数十亿英伟达芯片采购

不到2年，AI PPT赛道第一！像素绽放CEO赵充：今年是AI应用创业最佳时期 | 中国AIGC产业峰会