魔幻空间:教而不研则浅,研而不教则空。分享 http://blog.sciencenet.cn/u/njumagic 个人网页:http://cs.nju.edu.cn/szx/

博文

基于视觉感知网络的行为感知和理解技术

已有 9158 次阅读 2009-2-8 11:27 |个人分类:研究报告|系统分类:科研笔记|关键词:学者| 智能环境, 视觉感知网络, 感知计算, 行为识别和理解, 智能环境, 视觉感知网络, 感知计算, 行为识别和理解

计算技术进化和用户体验渴望的双重需求正推动着“人与环境交互”这一富挑战性课题的发展[1]。本质上,无论是Weiser提出的普适计算(Ubiquitous Computing)[2],还是欧洲ISTAP (Information Society Technologies Advisory Group)描绘的环境智能(Ambient Intelligence)[3],目标都是要营造“环境智能化”和“服务人性化”的智能环境(Intelligence Space/Environment)[4][5]这个环境既是一个基于传感器网络的智能物理空间,也是一个人与机器(空间)相互合作的复杂计算系统;既需要各种新型传感器和智能设备[6]及无线传感器网络等网络技术来支持环境与计算系统的通信和集成并体现计算的分布性、普适性和透明性[7]-[9],还需要利用环境及上下文感知、多传感器信息融合及智能系统等技术来支持环境对人类存在的感知和响应[4][10][11],并从用户体验角度提升用户与环境间的融合度,让用户可利用日常技能获取环境所提供的计算功能和服务[12]-[14]。概括起来,智能环境应具备的基本条件包括:能使人们在的正常行为变得方便;能自动获取和动态保存人类在其中所发生的行为和事件数据;能对触发事件和特殊事件做出反应;能适应各种动态变化。显然,要实现这样的环境需要各种形式的感知系统,且所有传感器、处理器和通讯设备应该隐藏在底层结构中以支持参与者自然和灵活的交流。与其它传感器相比,视觉感知设备(如:摄像机)具有覆盖范围大、信息丰富、精确度高,对环境和用户透明而又非侵入等优点,随着摄像技术向数字化、微型化、全方位、主动式和智能化方向发展[15]-[17]视觉信息在准确而有效表示智能空间中人的动态或静态状态和行为方面发挥着愈来愈重要的作用[11],因此,利用分布于环境中的摄像机组构建视觉感知网络(Visual Sensor Network)[18]-[21]运用模拟人类视觉感知能力的视觉计算(Visual Computing)技术来捕捉、理解和响应环境中人的行为举止和情感状态并进而协调其与环境间的交互关系是智能环境不可缺少的核心课题之一[11][22]

从人机交互的角度来看,人类今天的生活片刻离不开计算,人机和谐共处愈显重要,普适计算的探索进程也推动着人机交互从“以机器为中心”的受限(Formal)模式向“以人为中心”的非受限(Informal)模式方向发展[3],多通道/感知用户界面(Multi-modal/Perceptive User Interface)[12][13][23]等新颖人机交互技术的目标是要实现用户界面对人类自然能力(如:触觉、语言、笔形、手势和情感等)的感知、学习和理解,并通过协调感知和表现间的关系来模仿人与人及人与环境间的交互。其中,视觉行为(Visual Behavior)及其所表现出的视觉情感(Visual Emotion)在人类日常交互中具有举足轻重的作用,脸部表情和肢体动作等行为线索能为交互能提供相关上下文信息并影响交互内容和进程[24][25],尤其是情绪对所有非语言交流线索的激发调控才使人类在面对面交流中能毫不费力地察觉并解释相互间的交互信号[26][27]。因此,利用视觉计算技术适当地探查、识别和综合各种视觉行为线索,进而运用情感计算(Affective computing)技术来实现计算环境对人类日常情感状态的感知和学习并生动模仿和响应人类情绪表达是人机交互自然化和智能化的重要标志[13][14],已在人脸/头部检测与识别[28]-[30]、笔形[31]和手势识别[32][33]及表情识别[34][35]等方面进行了大量卓有成效的研究,头部及视线跟踪、手势和表情等视觉人机交互模式已逐步应用到图形用户界面中并部分代替传统界面模式[13][14],如:利用美国符号语言(American Sign Language)的手势交互[36][37]IBM的蓝眼(Blue Eyes)项目通过眉毛和嘴角的位置来进行人脸表情识别并实现对使用计算机的人情绪状态的监控和响应[38],等等。但是,已有研究主要集中在对人体局部行为和动作的识别和解释方面。事实上,人类行为是一个具多样性、文化性个体性和可塑性的复杂过程,在人机交互中,人类将计算机看作是“社会代理人”并与它进行“面对面(界面)”交流,需要机器具有适应用户的能力,而适应的时间、方式和重要性所涉及的是用户情感状态信息,机器恰当地对用户的情感状态做出反馈和反应才能使人感到更容易、自然、有效用且可信。因此,对人类行为及其上下文相关性,尤其是其所表现出的情感状态的综合和分析是新一代人机交互进一步发展面临的重要课题。

感知和识别复杂环境中人的行为举止也是智能视频监控研究的热点和难点课题之一[39]-[42],其任务是利用摄像机对特定环境中持续和瞬间物体进行实时监控和场景解释,理解和预测上下文相关的物体行为和事件并根据从传感器获得的信息与被观测的物体进行交互,公共设施、商业、交通和军事等场景的检测、监控、管理和指挥等应用中具有重要价值。众多研究者对此进行了大量卓有成效的研究和应用,并已经在对象检测和跟踪[43]-[46]、人体运动分析[47][48]和行为识别[49]等方面涌现了大量令人瞩目的研究成果。尤其是二十世纪九十年代以来,日益增长的社会安全要求产生了对许多环境进行监控的需求,使得视频监控技术的研究和应用受到学术界、工业界及政府部门更多的关注大范围嵌入型、多摄像机协同、多视角动态场景、多目标和多层次行为的分布式智能监控系统成为这一领域的研究热点[41][50][51],并在基于任务的摄像机网络部署和控制[52]-[56]及多摄像机集成和协作[57]-[62],尤其是活动摄像[15]-[17]及其视频内容处理[63]-[65]、视频压缩[66][67]、网络通信协议和数据传输标准[59][68]-[70]等多方面进行了大量研究,也出现了许多针对地铁、机场、车站等场所及交通运输等领域的分布式智能视频监控系统,如:采用多摄像机室内人体整体和局部动作进行监测和识别的DIVA(Distributed Video Arrays)系统[11]采用多摄像机在大范围复杂动态场景中检测和监控物体运动的VSAM(Video Surveillance And Monitoring)系统[71];采用嵌入式智能传感设备和分布式处理对车站等场所人群活动进行跟踪和监控的智能公共交通监控项目PRISMATICA[72]等等。然而,智能视频监控是一个十分复杂的问题,它与摄像机数目(单摄像机vs.多摄像机)、摄像机的配置(集中式vs.分布式)和方式(固定摄像机vs.活动摄像机)、运动目标数目(单目标vs.多目标和类型(刚体vs.非刚体)、传感器类型(可见光图像vs.红外图像)和样式(单目摄像机vs.立体摄像机)及场景状况等诸多因素有密切关系,除了检测、跟踪和识别等算法对运动目标姿态或状态改变及环境光照等因素变化的鲁棒性,复杂目标和环境处理过程的准确性和快速性等关键问题外,在分布式摄像机网络资源的配置和优化、多摄像机协同和信息融合、模型数据库的可测量性和增量式更新机制等诸多方面还有待于进一步深入研究。

智能环境中视觉行为感知系统承担着对环境中人进行监控与交互的双重任务,其目标是利用多个摄像机形成的视觉感知网络实现对人各种行为举止的感知和响应[20]。由于它不仅要关注人的空间位置和运动轨迹,而且要捕捉其各个层面的行为,甚至是情感状态,因此,视觉信息处理软件系统需要以下几个方面的功能[11][52]:利用多种类型摄像机获取多层次信号的能力;从多层次信息融合和抽象中获取行为和事件语义的能力;关注特定场景及其行为和事件的能力;在不同行为和事件语义层间转变注意力的能力。归结起来,基于视觉感知网络智能环境的软件系统需要解决三大相互关联的关键技术问题:一是面向多尺度行为信息感知的多摄像机控制模型;二是面向行为检测和跟踪的多线索融合技术;三是基于上下文的动作和活动分析与解释方法。

多摄像机控制模型是分布式视频监控系统引入的崭新研究课题之一[41][42],也是基于视觉感知网络智能环境的基础和关键技术之一[73]。传感器网络主要有两种基本传感模型:布尔传感模型和概率传感模型[21],然而,在视觉感知网络中可能会存在各种类型的传感器节点,这些不同类型节点的传感模型不尽相同,多媒体传感器节点传感设备类型的多样性和传感模型的异构性,主要体现在视频节点的方向性传感和其它节点的全向性传感之间的差异上,它对环境的感知受视角的限制是有方向性的,即节点的感知范围是一个以节点为圆心,半径为其感知距离,且与视角相关的扇形区域。同时,为了让视觉感知网络完成目标监测和信息获取的任务必须保证视觉传感器节点的部署能够有效地覆盖被监测的区域或目标,目前研究较多的传统传感器网络中的覆盖方法包括网格覆盖、冗余覆盖、圆周覆盖、连通性覆盖、最坏与最佳情况覆盖等[8]。然而,众多类型的视觉传感器节点共存于网络中,使得视觉感知网络中多摄像机的部署和协同覆盖控制研究更有意义。已有研究主要集中在面向对象跟踪性能最大化和能耗最小化的多摄像机任务管理和空间布局优化及摄像机自动校准和纠错等方面,如:DIVA系统[11]采用动态多线程视频同步采集和多状态分析结合的方式来实现最小时延的多摄像机协作;Snidaro[53]提出了利用衡量摄像机信息度量的外观系数(Appearance Ratio)来实现与跟踪对象位置距离最小化的摄像机部署和选择优化方法;ErdemSclaroff[54]考虑了固定、活动(PTZ)和全景摄像机三种类型及视野、空间分辩率和景深等摄像机参数,提出了面向响应时间最小化的室内多摄像机位置和数量部署优化方法;Dhanya[56]通过定义通信图(Communication Graph)和视觉图(Vision Graph)而将摄像机的配置转化为图优化问题;Volkan[58]则将对象跟踪的多摄像机部署视为关注焦点FOA(Focus of attention)问题,提出了利用摄像几何学及其对应的误差度量间的关系来实现跟踪期望目标位置误差最小化的多摄像机部署优化方法;Makris[59]通过对大量活动场景的无监督统计学习建立起各类活动对应的摄像机视图间的连接关系模型,进而利用这个模型来自动确定摄像机网络的拓扑结构并可跟踪盲区中的目标;TrevorJames[61]采用为每个摄像机配置一个无监督在线学习分类器的方法,并运用多分类器联合方法来实现多摄像机协同的对象检测和跟踪智能环境要求其摄像机监控空间能覆盖整个环境,且能选择、触发和控制合适的摄像机在恰当的时间从特定地点获取满足多层次行为和事件分析所需的多尺度信息的要求,也就是说,面向多尺度信息感知的多摄像机控制和管理必须同时满足响应时间、空间位置、视频内容分析(对象整体或局部信息)等要求,使检测目标的可能性最大化并避免不必要或无效率的控制和计算因此,如何在特定的感知信息阶段以最小的代价来选择和确定一组最有用的信息源仍是基于视觉感知网络的智能环境中多摄像机控制模型的重要问题,同时,尚缺乏对系统性能和能耗建模和评价等方面的研究。

多线索数据融合是改善视觉计算系统性能的重要手段,在图像分析、机器视觉、视觉人机交互和视觉信息检索等领域中已有大量的研究和应用,如:遥感图像分析中的图像融合[73]、静态对象识别中的多特征融合[75]、视觉信息检索中的视觉语义融合[76],等等。基于多线索数据融合的对象检测及跟踪也是视频监控中的重要课题[62],借助于诸如卡尔曼(Kalman)滤波、人工神经网络、动态贝叶斯模型及隐马尔可夫模型等技术,基于外观、区域、轮廓和运动等线索及其组合的检测与跟踪已经得到广泛研究[47][48]。但是,这些研究的主要目标在于融合同一感知源中的多种线索来提高检测和跟踪算法对场景、视角、光照和噪音等因素影响的鲁棒性,如:融合颜色、纹理和运动等多种特征信息可以增强混乱环境中物体检测效果和追踪性能[42][77]。智能环境需要系统而有效地解释来自环境中不同模态和模糊性传感器的大量信息,需要能根据多尺度视觉感知所拥有的信息量和所要求的细节层次进行多层次信息实时抽取和融合,并在合适的细节层次上实施对感知数据的时间状态和时间尺度分析,进而判断人的存在和分析人的行为并进行有效的追踪因此,智能环境中的多线索融合不仅应使检测和跟踪算法具有对环境、对象及噪声等变化影响的鲁棒性,更重要的是对来自多摄像机的信息在内容度量(整体和局部)和时间尺度上进行关联[10],需要在联合特征空间中按照上下文依赖模型进行表示和融合,以提高其对动态视觉内容特征表达(时间进化)的敏感性。最直接的解决方法是利用立体视觉方法来建立三维场景模型并实现多摄像机感知信息的融合,如:DIVA系统[11]采用静态摄像机组多基线立体视觉方式来建立三维场景模型而实现多摄像机信息融合,再通过对多摄像机同一场景重叠视图的分析和匹配来支持多摄像机协同的对象检测和跟踪;类似地,Hampapu[57]以单个摄像机基于对象外观和位置的二维检测和跟踪为基础,采用多摄像机宽基准线立体视觉方法来获取三维物体位置,再利用多摄像机视图对象一致性来支持对场景中对象的检测与跟踪;Christopher[62]通过建立多摄像机背景和前景对象外观的统一场景模型,利用贝叶斯模型来实现多摄像机协作和多模式融合的室内对象感知和跟踪。但是,智能环境中需要使用多个摄像机以联合、主从和竞争等工作方式来完全覆盖关注的场景并获得可接受的分辨率,三维场景模型建立过程的相对比较复杂,而且现实世界环境通常是动态且随时间而变化的,尤其需要处理遮挡等情况下的不同时刻的场景于对象间的对应关系;同时,尽管已有研究能做到对连续数小时的视频序列分析,但对于需要对人类行为举止长时间监控的智能环境来说也需要使用特殊的摄像机和算法。因此,如何系统而有效地表示和融合具有不同抽象度和不确定性的多摄像机感知信息并进而对场景时间变化和场景级整体和局部对象建模和融合仍是基于视觉感知网络智能环境中的一个难点问题之一。

基于视觉的人体姿态估计和动作识别是在视频监控、医学、机器人、视频索引、电影和游戏动画等许多领域都受广泛关注的研究课题,已经出现了很多思想和方法,文献[47][48][49]对此做了系统而全面的总结。尽管这些研究成果依赖于研究者和应用目标,但无论是姿态估计还是动作理解都取得了很大进展[48]。一方面,姿态估计已经覆盖了从多视角图像中姿态估计到从单幅图像中姿态估计、二维姿态估计到完整三维姿态重建等多个方面,尤其是通过采用基于示例的学习方法和基于模型的综合分析方法提高了对复杂场景姿态估计的鲁棒性和可重构姿态的复杂度[48],基于示例的学习方法利用人体动态捕捉数据库中的数据来生成人体模型在多姿态下的运动学习模型[78],进而获取二维图像特征到三维姿态之间的映射,最终实现从单视角图像序列中估计人体姿态;也可能把学习得到的二维到三维的映射与二维姿态检测组合起来从复杂场景的单视角图像序列或单幅图像中进行三维姿态检测。基于模型的综合分析方法则主要关注对复杂动作的可靠重构[79][80],它采用随机采样和搜索技术从多视角图像中估计三维姿态,为动作识别和重构提供强先验知识,进而重构人体的三维姿态。但示例学习方法中对训练样本的动作类别和视角范围的依赖性及模型综合分析方法中先验模型对一般动作重构的可扩展性仍有待于进一步研究和探索。另一方面,人体动作识别和理解在最近几年受到几乎爆炸性增长的关注[47][48][49],尤其是在智能视频监控领域,且在监控应用中异常活动检测及其它简单动作的识别和动作语法的表示方面取得了显著进步,如:采用整体方法来确定诸如性别和身份等整体信息或行走和跑步等一些简单动作;使用局部方法则关注更为细节的手势和步法等局部动作或通过简单动作单元来对复杂动作建模。但是,对人体行为和动作的视觉理解总体上仍然不成熟,在考虑场景上下文和人与场景间交互的运动理解,尤其是涉及动作语义和动作语法的高层抽象方面研究较少,对被监控空间内的事件进行基于上下文的检测和解释仍然是一个有待研究的领域,其难点在于利用时间或配置条件等知识优化视频分析,利用环境的几何模型或其它物体和活动模型解释事件以及采用学习的方法来提高系统的性能并检测所关注的事件。智能环境需要能从视觉信号、对象、事件和上下文关联等多层次抽象中获得整体或局部行为举止语义信息并关注特定事件和行为[73]和在不同语义层间转变注意力[55][56]的能力,尤其是捕捉和区分持续时间较短且随时变化的快速行为信号能力,如:象征性动作(如:眨眼或竖大姆指);操纵者(如:曾在环境中表现的行为,或抓挠和咬嘴唇等自我操纵行为);讲解者(如:由话语伴随的指点和抬起眉毛等动作);控制者(如:交换眼神、举起手掌、点头和微笑等);情感和态度的状态(如:快乐、不在意、挫折感);等等这就需要寻求更为通用的身体模型及其在动态复杂场景中视角、身体形状和衣着等的不变表示及身体整体或部分检测和姿态估计方法等来捕捉和表示更大范围的人体动作和行为及其关系,并能借助于用户特定的情感/态度标记进行依赖于应用和任务的行为和动作的高层推理和理解。因此,基于时间或配置条件等上下文的行为和事件的识别和解释是基于视觉感知网络的智能环境面临的重要问题之一。

此外,由于基于视觉感知网络的智能环境涉及到多尺度视觉信息感知和融合、视觉信息分析和理解、视觉信息重建与显示、大规模数据库、知识处理、用户智能代理及各种应用服务等多个组成部分每个部分在独立承担一定功能的同时还需要与系统中其它部分进行实时通信与合作显然,单纯依靠传统的软件理论和技术研制这一强调分布、合作与通信特点的系统是很难达到满意的效果;而借鉴和利用分布式自治系统中多Agent技术是这一领域研究和开发的必然趋势。利用Agent的自主性、可交互性、协作性及学习性,可以减轻对视觉传感器硬件性能要求的压力,增加系统的鲁棒性,也可提高系统配置的灵活性,从而可以大大简化系统的研发并增加其实用性。目前,这方面的研究也很少,如:Patricio[18]提出了一个视觉感知网络的多Agent框架,每个Agent对应于一个摄像机并采用内部符号模型描述其控制参数,摄像机间的协作通过Agent间的高层信息交换,每个Agent根据所有来自其它Agent的信息来解释其当前状态并改善其全局协作性;NorimichiTakashi[81]则采用基于Agent的三层交互结构,每层采用动态存储处理和交换不同类型对象信息,可以实现多活动摄像机协作的实时复杂动态场景多对象跟踪

概括起来,智能环境是普适计算时代面向计算技术进化和用户体验渴望双重需求复杂计算系统,它以分布于物理环境中的传感器网络为支撑,承担着对人类及其活动感知与交互的双重任务。尽管在无线传感器网络及基于传感器的对象定位跟踪等相关技术方面已有大量卓有成效的研究,但尚未真正形成完整而又实用的智能环境理论体系和软件方法,尤其缺乏对基于视觉感知网络的协同视觉行为感知和理解这一关键技术及其软件实现方法的研究。同时,已有相关研究成果大多侧重于运动对象的鲁棒跟踪和简单动作的有效识别方面,显然,这些技术和方法主要适用于场景中短时间异常行为或局部动作的检测和判别,尚不足以支持复杂场景中对人行为举止的长期感知和捕捉,尤其在多层次细节信息的协同感知、从多线索信息中获取行为及其语义、关注特定行为的细微变化及不同行为和事件间转变注意力等方面的研究尚不能满足基于视觉感知网络的智能环境对视觉感知和理解的要求。需要借鉴认知科学、模式识别、机器学习、计算机视觉、传感器网络、协同计算、智能视频监控和人机交互等相关领域的理论和方法,从计算技术进化和用户体验渴望这两个方面分析智能环境的构成方式、技术特点及其与人类活动间的内在联系,从协同视觉行为感知和理解角度研究多摄像机协同、多尺度时空信息感知、多线索信息融合和上下文敏感计算等关键技术,进而运用计算机软件新技术研究基于视觉感知网络的智能环境软件系统架构和实现方法,并建立智能环境软件系统模型及其评价体系。这无论是对于智能环境本身的发展和应用,还是对分布式视频监控和视觉人机交互的进步都具有十分重要的学术意义和应用价值。

https://m.sciencenet.cn/blog-39479-213562.html


下一篇:基于手绘草图的三维动画模型创作技术

0

发表评论 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 18:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部