内容简介:时尚总在引领潮流。在人工智能、增强现实、可穿戴、虚拟试妆等技术的加持下,时尚行业特别是在线时尚行业获得了飞速的发展。为了吸引客户更多的目光、更棒的视觉体验、更好地展现商品,高清大图、模特多角度摆拍已经成了服装、箱包、鞋类、美妆等线上商家的宣传标配。在网上购物时,大家都想看看模特衣服在各种角度姿势下的样子,但是越多越全面的姿势摆拍也就意味着越大的投入。为了降低宣传成本,很多研究开始聚焦于如何合成高质量的逼真图像。
From:arxiv 编译:T.R
时尚总在引领潮流。
在人工智能、增强现实、可穿戴、虚拟试妆等技术的加持下,时尚行业特别是在线时尚行业获得了飞速的发展。为了吸引客户更多的目光、更棒的视觉体验、更好地展现商品,高清大图、模特多角度摆拍已经成了服装、箱包、鞋类、美妆等线上商家的宣传标配。在网上购物时,大家都想看看模特衣服在各种角度姿势下的样子,但是越多越全面的姿势摆拍也就意味着越大的投入。为了降低宣传成本,很多研究开始聚焦于如何合成高质量的逼真图像。
在这篇文章中来自北卡罗来纳大学、JD和OPPO的研究人员们提出了一种 姿势引导的时尚图像生成模型,可以基于模特当前姿势,生成出其他各种不同姿势下的相同着装的新图像 !也许在这样技术的帮助下,模特再也不用辛苦一分钟拍二十个动作了~
生成新姿势下的时尚图像
研究人员的主要目的在于训练一个生成模型,将模特在当前姿势上的图像迁移到其他的目标姿势上去,实现对于衣着等商品的全面展示。
这一模型主要由生成器和判别器构成,与先前工作不同的是这一模型架构中包含了 两个不同的判别器 !其中生成器由两个编码器构成,分别用于从图像和对应的动作关键点特征图进行编码,而解码器则用于从动作和衣着的特征中合成目标图像。对于判别器来说,除了判定生成图像是否逼真外、还需要判定动作与生成图像的连续性以保证生成图像动作的连续性和鲁棒性。
模型的主要架构,生成器的编码器包含了对于图像的编码器Ei和对动作的编码器Ep,基于U-Net和bi-LSTM共同构建而成,而两个判别器分别用于判定图像的真伪并保证生成图像与动作间的连续性。
时尚图像生成器
生成器中主要包含了两个编码器和一个解码器用于处理图像和对应姿势,生成器探索了输入图像的视觉语义特征和位姿信息,并生成对应姿势下的新图像。
图像编码器:图像编码器的目标是从单张或多张图像中湖区语义编码信息。研究人员首先使用了ResNet作为主干网络抽取不同尺度的特征,包括纹理、颜色、边缘线条信息等。随后将这些特征输入到双边长短时记忆网络(bc-LSTM)中用于从相同衣着不同视角的模特图像中抽取共同的特征,将不同种类的图像特征进行转换,同时对不同特征下的背景和噪声进行处理。最终得到了可以表达图像视觉语义信息的编码Ci,用于后续图像的生成。
位姿编码器:模型同时需要位姿数据来为生成图像进行引导,研究人员利用了18个关键点来表示人体位姿,用不同颜色的直线相连并以RGB的格式进行表示。通过U-Net的架构和3*3的卷积从位姿图中抽取高层次语义特征Cp并在解码过程中通过跳接层连接进行特征共享。
解码器:其主要目的是通过图像编码Ci 和动作编码Cp重建出逼真的图像。首先将图像编码与位姿编码的编码拼接在一起,并基于U-Net架构和跳接层将视觉语义信息与动作编码信息匹配起来,进行有效的图像生成。
判别器:其主要目标是引导模型生成比先前模型更逼真图像。在训练过程中研究人员利用两个判别器来同时进行对抗训练,主要采用了与PatchGAN类似的实现。其中Di用于判别生成图像是否逼真,与先前的模型类似;而Dp则用于判定生成图像与对应动作的连续性。Dp的输出是真实图像与对应位姿和这一位姿下生成的图像,用于判定图像是否与位姿匹配,它对于生成与位姿对应的时尚图像具有重要的作用,能帮助网络生成更为复杂的动作姿势,同时保持连续性和鲁棒性。
结果展示
通过DeepFashion和Market-1501数据的训练后研究人员得到了不错的结果。
Deep Fasion 数据集
Market-1501 数据集
生成的结果与先前方法的比较,其中S和M代表了单张和多张图像输入的生成结果:
在数据集上的表现还不错,从源图像生成了新的姿势:
如果想要了解更多细节,请参考论文:
https://arxiv.org/pdf/1906.07251.pdf
ref:
paper: https://arxiv.org/pdf/1906.07251.pdf
dataset:
https://github.com/duxiaofei283/Market-1501_Attribute
http://www.liangzheng.org/Project/project_reid.html
https://arxiv.org/pdf/1611.05666.pdf
https://www.microsoft.com/en-us/research/wp-content/uploads/2017/01/ICCV15-ReIDDataset.pdf
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
authors:
KDD Workshop on AI for fashion
https://intra.ece.ucr.edu/~mbappy/
https://www.kdd.org/kdd2019/
http://www.wikicfp.com/cfp/home
logo image from : street style duck and hat
https://dribbble.com/search?q=fashion
https://dribbble.com/search?q=pose
https://dribbble.com/shots/6148999-Ohlin-b%20%20
https://dribbble.com/shots/5417126-Macy-s-Fall-Fashion-2018
https://dribbble.com/shots/6191580-Shopping-Product-Page-UI/attachments
-The End-
将门 是一家 以专注于 发掘、加速及投资技术驱动型创业公司 的新型 创投机构 ,旗下涵盖 将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由 微软创投在中国的创始团队 原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
将门创新服务 专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。
将门技术社群 专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。
将门创投基金 专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括 机器智能、物联网、自然人机交互、企业计算。 在三年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、 宽拓科技、 杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务, 欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
将门创投
让创新获得认可!
微信:thejiangmen
bp@thejiangmen.com
点击“ ❀在看 ”,让更多朋友们看到吧~
以上所述就是小编给大家介绍的《从姿势到图像——基于人体姿势引导的时尚图像生成算法》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- canvas 图像旋转与翻转姿势解锁
- canvas 图像旋转与翻转姿势解锁
- 强大的姿势感知模型用于姿势不变的人脸识别
- 行人重识别告别辅助姿势信息,港中文、商汤等提出姿势无关的特征提取GAN
- 穿越边界的姿势
- 日志打印的正确姿势!
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
深入浅出 MFC 第二版
侯俊杰 / 松岗 / 1997.05
深入浅出MFC是一本介绍 MFC(Microsoft Foundation Classes)程式设计技术的书籍。对於 Windows 应用软体的开发感到兴趣,并欲使用 Visual C++ 整合环境的视觉开发工具,以 MFC 为程式基础的人,都可以从此书获得最根本最重要的知识与实例。 如果你是一位对 Application Framework 和物件导向(Object Orien......一起来看看 《深入浅出 MFC 第二版》 这本书的介绍吧!