|
引用本文
洪金华, 张荣, 郭立君. 基于L1/2正则化的三维人体姿态重构. 自动化学报, 2018, 44(6): 1086-1095. doi: 10.16383/j.aas.2018.c170199
HONG Jin-Hua, ZHANG Rong, GUO Li-Jun. 3D Human Body Pose Reconstruction via L1/2 Regularization. ACTA AUTOMATICA SINICA, 2018, 44(6): 1086-1095. doi: 10.16383/j.aas.2018.c170199
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170199
关键词
3D重构,稀疏表示,L1/2正则化,凸规划
摘要
针对从给定2D特征点的单目图像中重构对象的3D形状问题,本文在形状空间模型的基础上,结合L1/2正则化和谱范数的性质提出一种基于L1/2正则化的凸松弛方法,将形状空间模型的非凸求解问题通过凸松弛方法转化为凸规划问题;在采用ADMM算法对凸规划问题进行优化求解过程中,提出谱范数近端梯度算法保证解的正交性与稀疏性.利用所提的优化方法,基于形状空间模型和3D可变形状模型在卡内基梅隆大学运动捕获数据库上进行3D人体姿态重构,定性和定量对比实验结果表明本文方法均优于现有的优化方法,验证了所提方法的有效性.
文章导读
从2D图像中识别3D对象是计算机视觉的核心任务之一.近些年来, 研究人员的研究重点已从基于图像初步识别对象(用边缘盒标记对象)转向进一步利用图像构建对象的3D几何信息(如形状、姿态等). 3D对象几何信息的获取不仅能为高层视觉任务如场景理解、增强现实以及人机交互等提供更丰富的判别信息, 而且也有助于提高对象识别性能[1-2].
基于单目图像重构对象的3D形状本身是一个病态问题.最近几年, 越来越多的科研人员利用不断增加的在线3D模型数据库进行3D模型分析并提取出丰富的形状先验信息, 在此基础上, 深入地开展了基于单目图像重构对象的3D形状方面研究.为解决3D形状重构过程中存在的类内可变性、非刚体形变和避免穷举所有可能视角等问题, 受主动形状模型(Active shape model[3])的启示, 有许多工作[4-5]是通过采用一种3D可变形状模型(3D deformable shape model)来表示形状, 在3D可变形状模型中, 一个形状被定义为一个有序特征点的集合, 任意一个形状可由预先定义的一组基础形状线性表示.考虑到稀疏表示[6]的思想是通过一组过完备基将输入信号进行线性表示, 若将上述基础形状视作过完备基, 则3D可变形状模型类似于一种稀疏表示.利用3D可变形状模型, 基于单目图像中的2D特征点重构对象的3D形状的问题可视为2D图像中的特征点与3D可变形状模型匹配[7]的问题, 即3D-to-2D形状融合问题.该融合问题本质上是对形状参数(稀疏系数)和视点参数(照相机外部参数)进行联合估计的问题.由于只有视点已知的情况下才能将3D可变形状模型与单目图像中2D特征点进行更好的融合; 或者只有已知3D形状模型的情况下才能更好的估计视点.因此, 形状参数与视点参数的联合估计是一个非凸优化问题.此外, 还需对摄像机旋转矩阵进行正交约束, 这将会使得问题变的更复杂.对于上述复杂问题的求解, 以前一般采用交替迭代最小化方法实现形状参数与视点参数的交替更新.然而, 此方法无法保证求得的解全局最优, 且求得的解对初始值敏感.为解决初始值设置不理想的问题, 有一些启发式方法被提出, 例如:对初始值进行多次初始化[8]或者使用视点感知检测器进行初始化[5].然而, 这些方法依然无法保证求得的解全局最优.
针对上述形状参数与视点参数交替更新的非凸优化问题, 本文在3D形状空间模型(Shape-space model)的基础上运用L1/2正则化和谱范数的性质将其转化为凸规划问题.在利用ADMM算法对凸规划问题进行优化求解的过程中, 进一步提出运用谱范数近端梯度算法保证解的正交性与稀疏性.
图 1 三种方法的定性实验效果对比图
图 2 三种方法的重构误差对比图
图 3 重构误差的盒图
针对从给定2D特征点的单目图像中重构对象的3D形状问题, 本文在形状空间模型的基础上, 结合L1/2正则化和谱范数的性质提出一种基于L1/2正则化的凸松弛方法, 将非凸优化问题转化为凸规划问题; 在采用ADMM算法对凸规划问题进行优化求解过程中, 为保证求得的解具有正交性与稀疏性, 本文提出谱范数近端梯度算法予以解决.为验证本文所提方法的有效性, 本文采用两种重构模型进行3D重构, 通过定性实验和定量实验进行对比分析, 最终得出本文所提方法的性能优于其他两种方法.
虽然本文所提方法取得了较理想的实验效果, 但是其收敛速度不够理想, 本文将尝试使用加速近端梯度算法进一步加快算法收敛, 完善本文; 基于深度学习在计算机视觉方面的成功运用, 后续将考虑采用深度学习算法实现3D骨架重构[37-38]; 基于视频具有更加丰富的信息, 将尝试在视频中使用本文所提方法[39], 后期将在智能制造和机器人领域使用本文所提方法.
作者简介
洪金华
宁波大学信息科学与工程学院计算机应用技术硕士研究生.主要研究方向为机器学习, 计算机视觉与模式识别.E-mail:18892627653@163.com
张荣
宁波大学信息科学与工程学院副教授.主要研究方向为计算机视觉, 数字取证与信息安全.E-mail:zhangrong@nbu.edu.cn
郭立君
宁波大学信息科学与工程学院教授.主要研究方向为机器学习, 计算机视觉与模式识别.本文通信作者.E-mail:guolijun@nbu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-21 21:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社