近期中科院计算所高林团队与合作伙伴在IEEE TPAMI(IF=24.31)上发表论文[1],提出人体视频姿态迁移中的细节增强技术,提升了视频人体姿态迁移效果,并在GitLink上开源了基于计图Jittor的实现代码。
Part 1
研究问题和背景
给定源人物运动视频,迁移合成高真实感的目标人物运动视频一直是计算机视觉和图形学中受到广泛关注的问题。现有的工作大多采用图像翻译技术[2-3],借助条件生成式对抗网络实现人体姿态标签到视频帧的转换。虽然能够取得不错的效果,然而这些方法却受限于神经网络的泛化能力,对于训练集之外的新姿态合成结果往往较差。
Part 2
方法概述
图1 细节增强的迁移效果展示
这种增强机制依赖于不同人体之间局部几何结构的相似性。具体而言,在人体姿态迁移任务中,提供姿态的源人物往往在脸部或手部具有与目标人物相似的几何特征。
研究团队基于此进一步提出了一种两阶段的细节增强机制,如图2所示。第一阶段训练姿态迁移网络(MT-Net)以得到具有模糊细节的初步迁移结果。在此阶段中,研究团队同时训练了源人物到目标人物和目标人物到源人物的迁移网络。在第二阶段中,该研究将目标人物到源人物的迁移结果与相应的目标人物视频帧进行线性混合。这里混合后的图像杂糅了迁移结果的模糊细节与视频帧的清晰细节,也交叠了源人物域与目标人物域的人物外观特征。
图2 融合源人物信息的细节增强机制
研究团队进而通过一个细节增强网络DE-Net来剔除冗余的信息,即完成从混合图像域到清晰的目标人物图像域的迁移。DE-Net采用U-Net网络结构来完成这一图像翻译任务,并且以目标人物视频帧作ground truth来监督其训练。
该方法中的MT-Net借鉴了Pix2pixHD[4]的网络架构以得到初步的迁移结果。MT-Net同时输入人体姿态表征与人体外观图片,得到该姿态在指定外观域中的迁移结果。初步的迁移结果往往具有模糊的细节特征。然而,用以驱动生成该结果的视频帧往往在这些相同的部位具有类似的几何结构和清晰的细节。因此,二者的混合能够为模糊的迁移结果引入清晰的细节信息。如图3所示。
图3 初步迁移结果与对应视频帧的混合
然而在引入清晰结构细节的同时,图片的混合也会将另一个图像域中一些冗余的外观信息引入混合结果中。该研究通过一个细节增强网络DE-Net来剔除冗余信息,实现混合图像域到目标人物图像域的迁移。该网络结构如图4所示。
图4 细节增强网络结构
Part 3
结果展示与计图开源
图5 细节增强结果对比图
图6以消融实验的形式展示了细节增强网络的作用。相较于MT-Net直接迁移结果MT(2D+3D),该方法在引入细节增强网络(Full)后显著提升了生成结果的细节。
图6 细节增强网络消融实验
在绿幕数据集上的效果也进一步证明了该方法的有效性,如图7所示。从左至右依次为源人物和三个被驱动的目标人物。
图7 绿幕数据驱动效果
https://www.gitlink.org.cn/IGLICT/MT_DE-Jittor
https://github.com/IGLICT/MT_DE-Jittor
参考文献
-
Yang-Tian Sun, Qian-Cheng Fu, Yue-Ren Jiang, Zitao Liu, Yu-Kun Lai, Hongbo Fu and Lin Gao, Human Motion Transfer with 3D Constraints and Detail Enhancement, IEEE TPAMI, 2022, 1-12,doi: 10.1109/TPAMI.2022.3201904
-
Caroline Chan, Shiry Ginosar, Tinghui Zhou and Alexei A. Efros, Everybody Dance Now, IEEE ICCV, 2019, 5932-5941.
-
Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz and Bryan Catanzaro, Video-to-Video Synthesis, NeurIPS, 2018, 1152–1164.
-
Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz and Bryan Catanzaro, High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs, IEEE CVPR 2018, 8798-8807.
-
Shi-Min Hu, Dun Liang, Guo-Ye Yang, Guo-Wei Yang and Wen-Yang Zhou, Jittor: a novel deep learning framework with meta-operators and unified graph execution, Science China Information Science, 2020, Vol. 63, No. 12, 222103.
本文来自微信公众号“AIWalker”(ID:happyaiwalker)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。