基于并行卷积核的Attention U-Net虚拟试衣方法研究
来源:用户上传
作者:舒幸哲
摘 要:针对虚拟试衣中特征提取不足、人物肢体被衣服遮挡的问题,在基于图像特征保留的虚拟试衣方法基础上,提出基于并行卷积核的Attention U-Net虚拟试衣方法。该方法采用并行卷积核代替原有的3×3卷积核来提取特征,并在U-Net网络中融入注意力机制形成新的Attention U-Net图像合成器,通过不断调整网络学习参数,将模型放在数据集VITON Dataset上进行虚拟试衣实验。实验结果表明,与原方法相比,该方法能提取出更多的细节纹理,在结构相似性上提升了15.6%,虚拟试衣效果更好。
关键词:虚拟试衣;特征提取;并行卷积核;注意力机制;结构相似性
中图分类号:TP391.41 文献标识码:A
Research on Attention U-Net Virtual Try-On Method
based on Parallel Convolution Kernel
SHU Xingzhe
Abstract: Virtual try-on has problem of insufficient feature extraction in and people's limbs being covered by clothes. On the basis of the virtual try-on method with image feature retention, this paper proposes an Attention U-Net virtual try-on
method based on parallel convolution kernel. In this method, parallel convolution kernel is used to replace the original 3×3 convolution kernel to extract features, and the attention mechanism is integrated into the u-net network to form a new Attention U-Net image synthesizer. By constantly adjusting the network learning parameters, the model is placed on the data set VITON (Virtual Try-On Network) Dataset for virtual fitting experiment. Experimental results show that compared with the original method, the proposed method can extract more detailed textures, improve the structural similarity by 15.6%, and the virtual fitting effect is better.
Keywords: virtual try-on; feature extraction; parallel convolution kernel; attention mechanism; structural similarity
1 引言(Introduction)
S着网络的快速发展,虚拟试衣被应用于越来越多的领域。虚拟试衣的目标是用一件服装来代替模特身上原有的服装,合成新的虚拟试衣图像[1]。目前已有的虚拟试衣技术,如基于图像特征保留的虚拟试衣网络(Toward Characteristic-Preserving Image-based Virtual Try-On Network, CP-VTON)的测试结果中存在衣服不够清晰、人体肢体被衣服遮挡的问题。通过改进,可以使虚拟试衣结果更接近现实,给用户带来更真实的虚拟试衣体验[2]。
一项成熟的虚拟试衣技术需使模特换衣后的身体姿势[3]及服装关键特征得到良好保留。本文基于CP-VTON虚拟试衣方法,在特征提取阶段引入并行卷积核,同时融入注意力机制,生成Attention U-Net图像合成器用于将变形后的衣服图像和模特图像进行融合,生成虚拟试衣结果。实验结果表明,本文改进后的网络结构不仅可以改善肢体被衣服遮挡的问题,同时也能得到更逼真、细节更丰富的虚拟试衣效果[4]。
2 相关工作(Related work)
在CP-VTON虚拟试衣实验中,由于使用的人物数据集LIP不够干净,存在视觉不佳、有噪声的人物图片,导致第一步中服装基于人体变形模块的训练效果不是很理想[5],存在人体肢体被衣服遮挡的情况。为了改进这一缺陷,本文基于端到端的训练方式进行了改善。一个理想的虚拟试衣结果中,不仅要把指定服装形状转换成模特的体态形状,而且要保留衣服的关键特征。CP-VTON虚拟试衣方法通过形状上下文匹配算法处理空间变形,但由于CP-VTON虚拟试衣方法采用了由粗到细的策略,无法良好地保留服装细节,并且人物肢体会被衣服遮挡,这会对虚拟试衣效果产生一定的影响。本文研究的关键问题是:其一,如何在虚拟试衣结果中保留更多的特征细节,并且使得人物肢体被遮挡的情况得到改善;其二,U-Net网络编解码器结构偏于简单,参数较少,网络模型深度不足,所以在U-Net网络结构中融入有效的网络模型,形成新的编解码器对于提高网络模型分割精度十分关键。
2.1 并行卷积核
本文基于CP-VTON虚拟试衣方法进行改进,目的是在虚拟试衣图像中良好的保留衣服特征细节以及模特形态。本文首先训练CP-VTON网络并进行测试,得到第一次虚拟试衣实验结果。在融入并行卷积核后重新训练,测试后得到第二次实验结果。最后在U-Net网络中融入注意力机制形成Attention U-Net图像生成器,再次训练网络,测试后得到第三次实验结果。最终将三次实验结果进行对比。
nlc202206161153
转载注明来源:https://www.xzbu.com/1/view-15433772.htm