AI如何变革家居软装?拍图就能搜商品,深度学习平台飞桨新玩法
允中 发自 凹非寺
量子位 编辑 | 公众号 QbitAI
随着消费互联网流量红利的逐渐殆尽,移动互联网的主战场转向产业互联网,家居行业3D数字化进程高歌猛进,行业开始沉淀下了大量的与真实商品对应3D模型数据,如何应用真实商品的3D数据的多维度特点,来改善消费者的购物体验具有重要意义。
国内地产交付房子时存在毛坯房和精装房的区分。
△ 图(毛坯房)
△ 图(精装房)
根据次元视界2018年上百家一二线城市的消费者调查数据(来源:http://wap.panguvr.com/docs/detail/134)显示,90%的消费群体会在软装装修前上网搜图。但如今,线下实体店仍然占据80%的销售额,线上流量无法直接转化成消费行为是行业中的一大痛点。如何将线上线下的优势结合,优化资源配置,快速实现线下家居实体业的「进化」,成为家居企业发展的重中之重。
但实现线下家居实体业的进化存在诸多难点:
从消费者角度看信息大爆炸时代内容庞杂,很难利用效果图在线上直接搜索到,或在线下快速找到想要家居产品。即使搜索到,也难以想象其实际的大小、摆放效果等。而逛实体店“按图索骥”,又会有店铺分散、产品分散,费时费力的问题。
从家居行业商户角度看,线上销售渠道虽然逐渐丰富, 但随之而来的也是大量卖家涌入线上平台,线上流量争夺激烈、红利减少,产品大概率为2D图片,用户体验差。
总结来说,随着新零售、大家居、互联网家装等新理念席卷,“线上+线下”双融合的家装营销模式更符合行业发展趋势。引导消费者通过效果图来直接展开消费行为为产业革新的关键。
这些问题,随着近年来卷积神经网络(Convolutional Neural Network, CNN)为代表的深度学习模型的广泛应用,有了很好的解决方法。
次元视界应用飞桨(PaddlePaddle),将Faster R-CNN应用于效果图真实商品检测,并结合可视化技术(Web3D、混合现实、全景云图),为消费者带来高品质的视觉感知服务,实现以图搜商品。
飞桨(PaddlePaddle)是百度自研的集深度学习框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台,有全面的官方支持的工业级应用模型,涵盖自然语言处理、计算机视觉、推荐引擎等多个领域,并开放多个领先的预训练中文模型。
有关飞桨(PaddlePaddle)的更多信息,请查看:
http://www.paddlepaddle.org/
在下文中,我们将详细介绍飞桨(PaddlePaddle)如何与Faster R-CNN结合起来,实现以图搜商品的功能。
什么是Faster R-CNN
Faster R-CNN可以看作特征提取网络、Fast R-CNN和区域建议网络(Region Proposal Network, RPN)的组合。根据相关资料显示,以图搜商品的搜索准确率,会根据物体类别有所不同,大致分为三个类别:
- 平面物体,如画报、装饰画等,准确率可达到 95%以上;
- 三维刚性物体,如立体家居模型,准确率在 80%以上;
- 对于柔性或纹理单一物体,如纺织类、纹理单一的物品等,识别相对困难。
目前,图像搜索在某些垂直领域已经可以成熟应用,然而面向“万物搜索”,仍有较大的提升空间。不过,对于家居行业来说,商品基本上是在平面物体、三维刚性物体上展示,因而在搜索时可以达到较高的准确率。
家居商品检测方法
效果图Object Detection
以图搜商品将解决文字搜索无法精确描述场景的问题,如海淘搜索商品时语种不对称、实时场景中看到心仪商品但信息不对称的情况等。不过,想要对效果图进行解锁提取家具的单品图,我们需要采用目标检测(Object Detection),目的是将效果图中的每个家具独立框选出来,并且识别出框中的是沙发、茶几、电视柜、床等家具类别。
目标检测的第一步是要区域提名(Region Proposal),类似于光学字符识别(OCR),简单的说就是尽量切碎到小的连通域,然后再根据相邻块的一些形态学特征进行合并,所以一定程度上可以说区域提名是更难的一个问题。
从机器学习的角度来说,问题的核心在于如何有效地去冗余候选区域,其实冗余候选区域大多是发生了重叠,选择性搜索利用这一点,自底向上合并相邻的重叠区域,从而减少冗余。
单品图特征检索
通过Object Detection我们可以提取效果图获得家具单品图和单品类型,假设我们提取了类型为床的单品图。
△ 图(床搜索原图)
输入单品图和类型,快速找到相似的商品
感知哈希(hash)算法的应用
感知哈希(hash)算法是一个有可比较的哈希函数的类,图像特征被用于生成独特(但不是唯一)的指纹,而这些指纹是可比较的。提取家具图像hash值的我们需要进行如下步骤:
- 缩小尺寸:去除高频和细节的最快方法是缩小图片,将图片缩小到8×8的尺寸,总共64个像素;
- 简化色彩:将8*8的小图片转换成灰度图像;
- 计算平均值:计算所有64个像素的灰度平均值;
- 比较像素灰度:将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1;小于平均值,记为0;
- 计算hash值:组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。
3D数据采集
通过实时渲染技术快速生成每个家居3D模型不同角度的几十张图像数据,并且混合复杂背景提升训练后的识别准确率。
△ 图(多角度图片示例)
基于3D模型我们还可以采集商品的搭配色彩表、材质信息、尺寸信息等更多维度的数据集,为之后的软装搭配智能推荐算法打下基础。
用不同深度学习框架的体验
首先我们先尝试的是谷歌的TensorFlow 深度学习框架,但在衡量本土化支持、开发者支持以及之后的商业化潜力后,我们决定无缝迁移到百度的飞桨(PaddlePaddle)。
由于之前《次元视界》已经基于TF 的Fast RCNN 做了将近三个月的大量数据联系,迁移到飞桨(PaddlePaddle)后我们有了以下发现——飞桨(PaddlePaddle) 更完美地支持了模型并行和数据并行多机训练。由于我们的数据,是每个家居3D模型不同角度的几十张图像数据、海量模型,包括大家居所有品类,这就意味着需要处理大于几个Terabyte的数据。
飞桨(PaddlePaddle)的运算占用内存小、速度快、支持并行,对我们的工作量非常适合。经过一周的训练,我们的模型轮廓识别准确率已达到89%,高于TF11%的识别率,并且其中的False Positive Rate (FPR) 也比之前减少了32%。
总结
产业互联网时代,互联网平台掌握更多的数据量,与之相关的处理、计算、分析等实践基础更完善,从而帮助企业实现数字化转型。而卷积神经网络具有多层次语义表达能力,不同层所提取的图像特征具有不同含义,选择不同卷积层会提取出不同层次的特征,在未来发展上极具优势。
本应用以家居行业效果图和真实商品库为研究对象,综合考虑消费者软装搭配选购的特点,展开以效果图搜索家居3D商品库数据集,通过3D模型的多维度特性增强扩大样本规模,实现对效果图的快速解锁、检索和匹配。
结合次元视界的3D模型自动化处理技术,全球各类模型共享网站都可作为数据集构建,该数据集可获取几百万家居模型和几百种分类,可覆盖全球家居的商品类别和外观。
未来基于3D数据构建的样本系统,可将积累的用户数据最大化的利用,计算机将建立和推测用户的需求模型以及各种解的模型,从而主动筛选出最佳内容,即未来将扩展为精准的可结合户型、喜好的家居软装搭配智能推荐系统,成为一个全新的家居流量入口。
— 完 —
- 腾讯云发布自研大数据高性能计算引擎Meson,性能最高提升6倍2024-07-04
- Intel2024-03-18
- 数字员工全新发布 加速企业转型2024-01-15
- 最“in”大模型专栏,点击阅读更多2023-08-18