科学网

 找回密码
  注册

tag 标签: 普适计算

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

普适计算的概念包含了云计算?
junqing 2011-10-13 19:10
看到一篇文章谈到普适计算与云计算的区别,该文认为云计算是一个可商业实现的平台,它是包含于普适计算当中?换句话说,普适计算的概念更为广泛. 恩,本人较认同该观点,但我认为普适计算是提出了一种新的计算模式,目的还是更广泛地资源融合,以及相关技术融合;当然也产生了很多挑战.例如,普适环境下的容错方面与传统的容错是不一样的;普适系统如何快速构建,如何高效维护软件等等.
5111 次阅读|0 个评论
[转载]普适高性能计算计划获得首个基准规范
sailor08 2011-1-5 15:19
据abouthpc.com消息,近日,美国路易斯安那州立大学(LSU)计算与技术中心(CCT)计算领域的科学家Steven Brandt向美国国防高级研究规划局(DARPA)的普适高性能计算(UHPC)计划交付了首个“chess benchmark(国际象棋基准)”规范。UHPC计划是DARPA最新的高性能计算研究活动,旨在创造一台能战胜目前功耗和编程限制的革命性的新一代计算系统。 UHPC的目标是交付一台单机柜性能达到1Petaflops的系统,能耗为57千瓦,包括冷却能耗。 LSU还参与了由乔治亚理工研究学院(GTRI)领导的“TA2”项目,该项目旨在开发应用、基准和标准以支持DARPA评估四个TA1小组的系统设计。 该chess benchmark服务是基于图形决策问题的一个范例,在非典型及重要的设计方面强调以UHPC系统的候选者为主。特别是一个有效的国际象棋程序是一个动态的基于图形的运算,它能够通过该系统分配或重新分配大量的并行任务、同步及传递状态信息,并且可以选择取消整个组的运行计算。 LSU CCT的计算机科学专家Thomas Sterling教授表示:“这些性能主要应用于国防部搜索或战术分析方面的大量任务验证
个人分类: CnBeta|1806 次阅读|0 个评论
[转载]普适计算让你同享多台计算机——计算机技术第三次浪潮席卷而来
weixiuping 2010-12-30 09:56
普适计算让你同享多台计算机 计算机技术第三次浪潮席卷而来 科技日报 20 多年前,位于美国加州的施乐公司帕洛阿尔托研究中心的科学家从理论上推断了计算机应用领域的下一次跳跃 普适计算(无所不在的计算)将 飞入寻常百姓家 。科学家认为,普适计算是计算机历史上的第三次浪潮。在普适计算的环境中,人们能够在任何时间、任何地点、以任何方式进行信息的获取与处理,所有的过程在计算设备的帮助下高度自动化地完成。 普适计算指将计算能力融入到物理环境中,让计算与语言、文字等一样成为人们日常生活的一部分,这个概念最早由施乐公司帕洛阿尔托研究中心的首席科学家马克 维瑟提出。 普适计算的核心思想是小型、便宜、网络化的处理设备广泛分布在日常生活的各个场所,计算设备将不只依赖命令行、图形界面进行人机交互,而更依赖 自然 的交互方式,计算设备的尺寸将缩小到毫米甚至纳米级。 在普适计算的环境中,无线传感器网络将广泛普及,在环保、交通等领域发挥作用;人体传感器网络会大大促进健康监控以及人机交互等的发展。各种新型交互技术(如触觉显示、 OLED 等)将使交互更容易、更方便。
个人分类: 遥感快讯|2572 次阅读|0 个评论
人机交互技术概论
njumagic 2010-6-6 11:57
人机交互技术 (Human-Computer Interaction , HCI) 致力于人与计算机的协调,旨在消融这两个智能系统间的通讯和对话界线,使得人与机器的信息交流便捷而通畅 。 计算机系统的人机交互是以用户界面 (User Interface , UI) 为中介的人与计算机间信息传递和转换过程 :人向计算机传达交互意图 用户 通过其侧重于多媒体信息接受的感觉通道 ( 包括:视觉、听觉、触觉和嗅觉等 ) 对用户界面中诸如语音、图形和图像等多媒体信息的感知,先利用逻辑思维和形象思维能力产生对交互意图的心理描述, 再 按用户界面对交互的输入要求 使用其 侧重于过程控制与信息输入的 效应通道为 ( 包括:手、嘴、眼、头、足及身体等 ) 来实施交互行; 计算机向人传递计算和反馈结果 它利用其感知机制从精确的用户界面框架结构中获取用户的交互信息,并完成获取交互行为信息的感知处理、判断用户交互意图的认知处理和回馈交互结果的响应处理等一系列计算过程,最终运用其输出机制以用户界面所定义的特定形式输出其计算结果。 从信息传递的角度来看,用户界面的 任务是为人类的感觉和效应通道与计算机的感知和输出机制提供通信接口, 计算机系统的人机交互包含互不可分的两类感知过程:一类是人对计算机所提供信息的感知过程。在这个过程中,计算机利用其计算能力和各种媒体处理技术将计算机可供交互的输入要求或交互处理结果的反馈以适当形式在用户界面上呈现给用户;而人类使用感觉通道 ( 如:视觉和听觉 ) 接受和理解用户界面所提供的各种信息。这种感知过程的关键是用户界面所呈现信息的形式和丰富程度,并部分与用户的心理因素及其认知能力相关,这决定了人机交互中计算机与人间通信的输出带宽。另一类是计算机对人及其所处环境的感知过程。在这个过程中,人类按照计算机所要求的输入事件使用效应通道 ( 如:语音和动作等 ) 在用户界面中输入交互操作和指令;计算机则通过对来自用户界面的用户交互媒介信号的处理和分析来获取和识别用户交互意图,并以适当形式在用户界面上呈现给用户。这种感知过程不仅取决于计算机感知和识别人和物及其检测用户情绪变化或用户个性等信息处理能力,而且取决于用户有意识地将交互意图分解和组织为计算机所特有输入事件过程中所付出的认知努力,这决定了人机交互中计算机与人间通信的输入带宽。 此外,如果计算机是可以感知外部世界的机器,还存在两种特殊的感知:一种是计算机感知并传递人及其环境信息,人借助于计算机传递感知信息,它基本上不属于人机交互的感知,但可以作为人机交互感知的基础。例如:在视频会议、远程教学和远程医疗等系统中,计算机并不一定需要识别人的交互行为和信息,而只成为两人或多人之间的相互交流的媒介;另一种是人作为虚拟世界中的成员而从计算机中获得的感知,这种感知是人机交互的感知,而且人和计算机的感知地位是等同的,其感知信息的形态不仅内容丰富,而且可以是现实世界里所看不到的 ( 例如:虚拟的场景、文本和语音等 ) 。 从信息转换的角度来看,用户界面的 作用是实现用户认知空间与计算机信息处理空间间信息的双向映射。 由于人类的交互意图通常是一个涉及人的认知和行为因素的高维复杂信息,且这些信息是非精确的或模糊的;而计算机遵循线性信息表示和存储模式来表示和处理交互信息,所能捕获和处理的必须是形式化的精确信息,且其感知和处理结果不一定能够依从人的感知规则。 两者间的差异 决定了其双向映射实现的技术复杂性和方式多样性,因此,人机交互技术的任务就是要选择合适的映射方式来解决其技术实现的复杂性与 用户交互的易用性问题。 技术实现的复杂性主要体现在如何提升 计算机感知和识别用户交互行为和状态并进而理解其交互意图;用户交互的易用性则表现为如何充分利用和协调 人类的多个感觉和效应通道并进而降低其 完成交互行为所需付出的认知努力。显然,一个良好的映射方式将会极大地提高人机交互的自然性和高效性。在人机交互技术发展历程中,人机交互的界面形式经历了手工作业、命令接口 ( 作业控制语言及交互命令语言批处理 ) 、 ( 文本 ) 菜单到多通道、多媒体人机交互和虚拟现实系统;人机交互的信息载体经历了以文本和符号为主字符用户界面 (Character UI) 、以二维图形为主的图形用户界面 (Graphic UI) 、兼顾视听感知的多媒体用户界面 (Media UI) 及综合运用多种感觉 ( 包括触觉等 ) 的虚拟现实系统 (VR : Virtual Reality ) ;人机交互的信息维度从一维 ( 主要指文本流 ) 、二维 ( 主要是利用色彩、形状、纹理等维度信息的二维图形技术 ) 、三维 ( 主要是三维图形技术,但图形显示仍以二维平面为主 ) 向多维空间 ( 利用人的多个感觉通道和效应通道的信息 ) 发展,计算机与用户间的通信带宽不断提高。就其技术机理本质而言,这种发展蕴涵着对人机交互中两个主体不同侧重点的映射方式演化: 一种是以机器为中心的受限方式。这种方式强调将计算机的信息处理需求有效地呈现给用户,为用户 提供一个形式化、半双工、串行的低维度信息展现和操作界面 , 主要表现在两个方面:一是人的交互需基于离散事件,用户界面等同于一个解释器,它接受事件输入并反馈计算机处理的结果,在此过程中,多维信息矢量被压缩为一个低维矢量,形成一个串行的输入流;二是人的交互必须基于精确交互:用户在交互中需要把意图按模型要求分解并组织为计算机所特有的输入事件,以完全说明用户交互目的和意度。 用户必须面对机器操作定义的限制并付出较多的认知努力来使用计算机。从 用户角度来看, 这种方式支持的是 受限人机交互 (Formal HCI) ,用户需饱受命令记忆和新功能学习之苦 。 例如, 用户通过使用鼠标、键盘和显示器来与传统的桌面计算机进行交互时,与计算机及其上运行软件间的交互存在着受限的交互次序:完成特定序列的操作来创建 Word 文档、输入文本并将其打印,等等。 这种方式的实现关键在于计算机及其软件处理能力展示的有效性和合理性及用户操作的简便性和易记忆程度,具体表现为两个方面的问题:一是如何充分而有效地展示计算机及其软件的处理能力,即:如何定义操作及其布局,如:弹出菜单、下拉菜单、分层菜单等;二是如何让用户方便地使用和记忆,即:用户采用何种方式进行操作,如:命令语言、文字菜单和图标点击,等等。显然这种方式限制了人机间的通信带宽,使得既不能有效地利用当今计算机的强大计算和处理能力,也给 用户使用电脑有诸多不便 。 传统用户界面都是采用了这种映射方式。它主要包括三大类: (1). 命令语言交互 (Command HCI) :这种人机交互始于联机终端的出现,用户与计算机间借助一种双方都能理解的语言进行对话。根据语言特点可分为:① 形式语言。这是一种人工语言,特点是简洁、严密、高效,如:应用于数学、化学、音乐、舞蹈等各领域的特殊语言,计算机语言则不仅是操纵计算机的语言,而且是处理语言的语言;② 自然语言。特点是具有多义性、微妙、丰富。③ 类自然语言。这是计算机语言的一种特例,命令语言的典型形式是动词后面接一个名词宾语,即:动词 + 宾语结构,二者都可带有限定词或量词。命令语言可以具有非常简单的形式,也可有非常复杂的语法。它要求惊人的记忆和大量的训练,且容易出错,但具有灵活和高效的特点,适合于专业人员使用。 (2). 图形交互 (Graphic HCI) :图形用户界面 (Graphics UI , GUI) 是当前人机交互的主流,成熟的商品化系统有 Apple 的 Macintosh 、 IBM 的 PM(Presentation Manager) 、 Microsoft 的 Windows 和运行于 Unix 环境的 X-Window 、 OpenLook 和 OSF/Motif 等。这种界面包含三个重要思想:① 桌面隐喻 (Desktop Metaphor) ,即在用户界面中用人们所熟悉的桌面上的物品来清楚地表现计算机可处理的能力;② WIMP(Windows 、 Icons 、 Menu and Pointer) 是组成图形用户界面的基本单元,以可重叠多窗口管理的窗口管理系统为核心,使用键盘和鼠标器作为输入设备,并广泛采用事件驱动 (Event-Driven) 技术;③ 直接操作及所见即所得 ( What You See is What You Get ) 的界面,交互过程极大地依赖用户视觉和手动控制的参与,具有强烈的直接操作特点。菜单 (Menu) 本身与图形人机交互并没有必然联系,在图形用户界面出现前,字符型菜单已经在用户界面中得到了广泛应用。但图形人机交互中菜单的表现形式比字符人机交互更为丰富,在菜单项中可以显示不同的字体、图标甚至产生三维效果,同时,还可以诸如层叠式 (Hierarchy) 、弹出式 (PopUp) 、下拉式 (PullDown) 和滚动式 (scrolling) 及其组合等多种形式出现,菜单式人机交互与命令语言人机交互相比,用户只需确认而不需回忆系统命令,从而大大降低记忆负荷,其缺点是灵活性和效率较差,可能不适合于专家用户。图形人机交互具有一定的文化和语言独立性,并可提高视觉目标搜索的效率;其主要缺点是需要占用较多的屏幕空间,并且难以表达和支持非空间性的抽象信息的交互。 (3). 直接操纵 (Direct-manipulation HCI) :直接操纵更多地借助物理的、空间的或形象的表示,而不是单纯的文字或数字表示。前者已为心理学证明有利于问题解决和学习。视觉的、形象的 ( 艺术的、右脑的、整体的、直觉的 ) 人机交互对于逻辑的、直接性的、面向文本的、左脑的、强迫性的、推理的人机交互是一个挑战。直接操纵人机交互的操纵模式采用宾语 + 动词结构, Windows 95 设计者称之为以文档为中心,用户最终关心的是其欲控制和操作的对象,即:只关心任务语义,而不用过多为计算机语义和句法而分心。对于大量物理、几何空间及形象的任务,直接操纵表现出巨大的优越性,但它在抽象而复杂的应用中具有局限性。对于用户界面设计者来说,图形的设计比较因难,需大量测试和实验;而复杂和抽象语义的表示比较困难,不容易实现交互与应用程序的独立设计。 另一种是以用户为中心的非受限方式。这种方式强调 将 对人类自然能力 ( 尤其交流、运动和感知能力 ) 与计算设备及其感知和推理结合起来,通过 采用多种模态 (Multimodal) 感知人类的自然行为, 并以易理解的多媒体 (Multimedia) 形式实现多通道 (Multichannel) 通信,建立以人为中心的感知用户界面 (Perceptive User Interface , PUI) 。这种界面旨在充分使用人类诸如语音、手势、视线及头部跟踪等多个感觉和效应通道,并使之可选择地并行和协作来实现多通道、非精确、高带宽、高效及不限制地点的人机通信 ,以拓展人机间信息通信的带宽,减少人类的交互认知努力,提高人机交互的自然性和高效性。从 用户角度来看, 这种方式支持的是 非受限人机交互 (Informal HCI) ,其主要出发点是借助于媒体感知技术获取并理解用户动作、行为、习惯、偏好及其它相关交互信息,来缓解以至于消除计算机和用户对交互意图的认识和描述存在的精确信息 ( 人机系统的内部表示 ) 和非精确信息 ( 人机系统的外部表示 ) 间的鸿沟;其实现的关键在于计算设备对人的动作和行为识别的有效性, 因此, 支持这种交互方式的用户界面又称为基于识别的用户界面 (Recognition-based User Interface) 。 这种方式的用户界面则代表着人机交互技术的发展方向,体现了对人的因素的重视,标志着人机交互技术 从人适应计算机向计算机不断地适应人方向发展, 就是要给用户充分的自由,使得人类不再需要按机器的要求扭曲自己最自然的思维和行为方式,而可以像在电脑出现前人类那样自由地工作和生活。传统的界面事实上成为隔离物质世界和信息世界之间的屏障,虚拟现实、网络计算、智能代理和 软件机器人、 计算机支持的协同工作等技术的应用,将实现虚物实化和实物虚化,消除物理对象和抽象对象、输入装置和输出装置在交互空间中的差别,并为人提供多感觉通道的自然临境体验; 语音及文字识别和自然语言理解等 言语计算 ,手写体和手绘草图识别等笔式计算及 手势和表情识别、视觉 - 目标拾取认知技术等视觉计算等技术的不断发展和完善,将不断提高人机交互的智能化程度,使机器能够根据上下文及使用者的特点主动识别人的身体姿态、手势、语音和表情等各种自然行为,进而判断出人的意图。同时,机器的功能齐全、高效,既适于人的操作使用,也能满足人的审美和认知需要,机器的操控和使用将更加符合人的习惯,并具备听、看和说的能力,人可以语言、文字、图像、手势、表情等自然方式与机器打交道,恰如与他人交流一样自然。因此,用户界面是能模拟多种智能和真实环境的虚拟空间,人们能够在任何时间、任何地点与任何需要的环境 ( 包括人 ) 以最自然和身临其境的方式来完成所需要完成的工作;实现无形而又无处不在,有形而又自然和谐的普适交互 (Ubiquitous/Pervasive HCI) 模式,这种方式的特性体现在以下三个方面: 以用户为中心 (Human-Centered) :以用户对人机交互的需求变化为出发点,使人机交互的外在形式和内部机制能符合不同用户的需要。人类的交互行为是自然的,用户将可利用语音、手势、笔划等自然方式,不受地点限制地与计算机进行交互 , 既能满足用户个性化的需要,又使得用户不脱离自然社会关系 ( 包括社会经济环境和人类沟通交流 ) 。 多模态 (Multimodal) 交互:充分利用人类多种感觉和效应通道的互补特性, 并使之可选择地、充分地并行和协作 来捕捉用户的交互意图,从而增进用户交互的自然性。模态 (modal) 和通道 (Channel) 间的联系和区别主要在于:人类通过视觉、听觉、触觉、味觉和嗅觉这五种感官的信息发送和接收来实现与世界交互的,一种模态对应一种官能;而通道是指信息传递的过程或途径。在人机交互应用中,通道描述一种交互技术,这种技术可基于某种特殊设备,如:键盘或鼠标,也可基于某种特殊行为,如口语、书面语或手势。如:命令语言用户界面中的每个命令都会使用视觉和触觉等多种模态;而图形用户交互既使用了视觉和触觉等多种模态,又用到了诸如键盘、鼠标和声音及图像等多种通道。多模态人机交互是使用同等方式将两种或两种以上输入模态相结合的技术,其重点是将基于诸如语音识别、笔形手势识别、计算机视觉等传感识别的输入技术集成到用户界面中。也就是说,多模态人机交互使用多种模态来实现多种通道通信。使用多种模态生成单独的通道,如:利用视觉和声音进行三维用户定位,属多传感器融合 ( Multisensor Fusion ) ;类似地,使用一种模态生成多种通道,如:左手鼠标指示,右手鼠标选择,则属于多通道或多设备 ( Multichannel or multi-device ) 人机交互。 多媒体感知 ((Multimdia Perceptive) :机器利用其感知及推理能力对来自用户感觉和效应通道的交互信号进行识别、集成和协调,并获取用户动作和行为习惯、偏好及其它相关信息, 并以人类易理解的多媒体信息方式为用户提供输出信息,从而 提供不受时空限制而又效能最大化的个性化计算服务 。 这种人机交互方式的双向信息流动是以多媒体感知和处理为核心的:用户通过其感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形和图像等多媒体信息,人到机 (Human to Compute) 信息流动是多媒体信息的获取及识别过程;计算机经过处理的信息需要以文本、语音、图形和图像等用户理解概念所需的多媒体信息形式展现出来,机到人 (Computer to Human) 的信息展流动是多媒体信息的合成和呈现过程。 自 Weiser 博士提出 普适计算 (Ubiquitous/Pervasive Computing) 以来,人类开始向未来计算探索的进程,也催生了 以 网格计算 (Grid Computing) 和云计算 (Cloud Computing) 为代表的计算 分布化 (Distribution) 、以嵌入式计算 (Embed Computing) 为代表的计算 透明化 (Transparent) 、 以虚拟现实 (Virtual Reality) 和可穿戴计算机 ( Wearable Computer ) 为代表的计算机系统拟人化 (Personate) 和有形化 (Tangible) 、以手持电脑 (PDA) 和智能手机 (Smart Phone) 为代表的计算机系统微型化 (Micromation) 和随身化 (Mobile) 及以智能空间 (Smart Space) 和环境智能 (Ambient Intelligence) 为代表的计算机系统嵌入化 (Embeded) 和无形化 (Invisible) 等众多新型计算技术, 推动着 机箱时代迈向一个崭新时代:计算设备将从人类视野中消失,那些装在机箱中的声音、视频和通信等将游荡于我们周围环境中而变得无处不在。 这个时代具有两个重要特征 : 一方面,小型化嵌入式计算设备将使得人类生活的自然环境具有计算能力,它能自主感知人的存在,并在人类需要时出现和对其行为作出反应;另一方面,计算将日常生活化,能帮助人类安排、构造和控制日常生活,人类将能享受的计算服务,人类能以最自然的方式、在任何时间、任何地点、通过任何设备从环境中无意识地获取有感觉的计算资源和计算服务。概括地讲,在这个时代,人类生活将片刻离不开机器,人与机器间的交流更加自然和没有阻碍,人和计算间将是非侵入且不可见的交互, 现实世界就成为用户界面 ,用户只需运用其日常技能来操作和使用计算设备,而 不再关注交互媒体形式, 也无需特定的用户界面,即: Idea Interface is no interface 。 这既对人机交互技术提出了更高的要求和新的挑战,也为人机交互技术的发展注入了新的动力,因此,自然、高效、无障碍的新型人机交互技术成为该领域发展方向和研究热点。 新型人机交互技术的最主要特性就在于用户交互的非受限性 (Informaity) :机器给人以最小的限制并对人的各种动作做出反应,人是主动参与者,可以最大的自由度操作机器,如日常生活中 人与人间的交流一样 自然、 高效和无障碍 。这种人机交互技术强调两个关键特征:一是 交互隐含性 。理想的人机交互应当使用户把所有注意力集中于完成任务而无需为交互操作分心,且应允许使用模糊表达手段来避免不必要的认识负荷,有利于提高交互活动的自然性和高效性。传统用户界面都是等待用户输入命令才开始采取行动,而新颖人机交互技术的用户界面则应是积极地感觉和理解世界,并让用户在各个层次上根据目标和已有知识采取行动,并以充分性代替精确性。理想地,这是一个使用被动或非侵入性感知的主动交互方式,无需用户显式说明交互成分,仅在交互过程中隐含地表现而允许非精确的交互,如:用户视线自然地落在所感兴趣的对象上;用户的手自然地握住被操纵的目标;等等。二是 交互多模态性和双向性 。允许使用多种感知模态 ( 如:视觉、听觉、触觉等 ) 或多个感觉和效应通道,突破了模态和鼠标键盘显示器通信通道的限制,使用连续形式和并行形式在内的多种模态。尽管感觉通道侧重于多媒体信息的接受,效应通道侧重于交互控制与信息输入,但两者是密不可分、相互配合:只用一种通道不能充分表达意图,就需要其它通道信息辅助。有时,使用辅助通道仅为增强表达力,否则,就必须允许充分地并行和协作的通道配合关系。此外,人的感觉和效应通道通常具有双向性特点,如:视觉可看又可注视;手可控制又可触及;等,新颖人机交互技术让用户避免生硬、频繁或耗时的通道切换,从而提高自然性和效率。如:视线跟踪系统可促成视觉交互双向性;听觉通道在利用三维听觉定位器实现交互双向性;等等。 新型 人机交互技术的核心问题在于如何确保计算设备对人的动作和行为识别的有效性并实现人机的和谐共处。计算设备及其传感器是透明和被动的,但可以主动感知人类相关通信通道并输出人类可理解的结果。这就需要不同类型和层面技术的集成,并随着关键维度或特征发生变化,包括:输入模态的数目和类型;通信通道的数目和类型;使用并行模式、串行模式或同时使用并行和串行模式的能力;识别模式的大小和类型;传感器和通道的集成方法及支持的应用种类,等等。依据充分利用人类感觉和效应通道并使得人机交互更加自然的目标,新型人机交互的关键技术主要集中在以下几个方面: (1). 支持语音交互 (Speech-Based HCI) 的言语计算 (Speech Computing) :语音是人类一种重要而灵活的通信模态,言语交互的核心是语音识别,其任务就是利用语音学和语言学知识,先对语音信号进行基于信号特征的模式分类 ( 这是语音信号处理的范畴 ) 得到拼音串,再利用语言学知识对拼音串进一步处理,得到一个符合语法和语义的句子。简单地说,语音识别就是让计算机能听懂人说话,将人说的话转换成计算机文本。 (2). 支持笔迹交互 (Pen-Based/Calligraphic HCI) 的笔迹计算 (Calligraphic Computing) :笔迹交互是通过计算机软硬件技术和相关领域的研究,模拟人类笔录纸现这一日常技能的一种人机交互方式。在这种用户界面中,用户借助鼠标、笔迹交互器及触摸屏等设备用手自由地书写或绘制各种文字和图形,计算机通过对这些输入对象的识别和理解获得执行某种任务所需要的信息。 它充分利用书写的自然性和墨水丰富的表达能力 ,从而拓宽了人机交互的频带,使人们通过笔迹交互自然地使用计算机的高性能计算能力:从计算机处理角度看,笔迹交互可以在一个或多个连续的笔画中自然地提交计算任务所需要的命令和参数;从人机交互角度来看,它通过将用户的交互意图映射为由压力、方向、位置和旋转等信息共同构成的多维矢量序列 ;从认知心理学角度看,用户的交互意图通过几个效应和感知通道提交。与言语交互相比,笔迹交互以视觉形象表达和传递概念,既有抽象、隐喻等特点,还具有形象、直观等特征,易于理解和记忆,更适于推论和构思;与传统图形图像工具相比,它具有自然、简便,可表达不完备模糊概念,拥有强大的信息表达能力,有利于创造性思想的快速表达、抽象思维的外化和自然交流。 (3). 支持视觉交互 (Vision-based HCI) 的视觉计算 (Vision Computing) :在人类日常面对面交互中,除使用语音和文字外,还可利用身体各部位的姿态和动作 ( 即所谓身体语言 ) 来表达自己的意思。视觉和言语是联合表达、相互补充的通道,诸如脸部表情、注视焦点、肢体动作及其它活动等行为线索能为交流提供相关上下文信息,这些信息不仅能加强语音的表达能力,还能起到语音交互所不能起到的作用,并影响交谈的内容和进程,如:头部动作可能是否定或肯定的信号,脸部表情可能是无奈或赞许的表式,注视角度可能可消除这边或那边等语言中指代不明的问题。视觉交互技术 (Vision-based Interaction) 的目标就是在人机交互中采用计算机视觉作为有效的输入模态,探测、定位、跟踪和识别用户交互中有价值的行为视觉线索,进而预测和理解用户交互意图并做出响应。这种技术可以支持人机交互中的一系列的功能,如:人脸检测、定位和识别 ( 确定场景中的人数、位置和身份等 ) ;头和脸部的跟踪 ( 用户的头部、脸部的位置和方向 ) ;脸部表情分析 ( 用户表情状态:微笑、大笑、皱眉、说话、困乏等 ) ;视听语音识别 ( 协助判断用户说话内容 ) ;眼睛注视跟踪 ( 用户的眼睛朝向 ) ;身体跟踪 ( 用户身体的位置,身体的动作等 ) ;手跟踪 ( 确定用户手的位置,二维或三维模型、手的结构等 ) ;步态识别 ( 识别人的走路 / 跑步的风格 ) ;姿势、手势和活动识别等,最终实现人与机器的行为交互 ( Behaviour Interaction) 。 (4). 支持情感交互 (Affective-based HCI) 的情感计算 (Affective Computing) :众所周知,人类相互之间的沟通与交流是自然而富有感情的,计算机没有情感能力,就很难指望它具有类似人一样的智能,也很难期望人机交互真正实现和谐与自然。因此,人们在与计算机交互的过程中,也期望计算机具有情感和自然和谐的交互能力 。而情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,它是通过各种传感器获取由人的情感所引起的表情及其生理变化信号,利用情感模型对这些信号进行识别,从而理解人的情感并做出适当的响应。其重点就在于创建一个能感知、识别和理解人类情感的能力,并能针对用户的情感做出智能、灵敏、友好反应的个人计算系统 。拥有情感能力的计算机能够对人类的情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并有效减轻人们使用电脑的挫败感,甚至帮助人们便于理解自己和他人的情感世界。情感交互还能帮助我们增加使用设备的安全性、使经验人性化、使计算机作为媒介进行学习的功能达到最佳化。 (5). 支持可穿戴交互 (Wearable HCI) 的穿戴计算 (Wearable Computing) :可穿戴计算机是一类超微型、可穿戴、人机最佳结合与协同的移动信息系统。可穿戴计算机在体系结构、功能、形态、用途及使用方式上与现在流行的笔记本电脑、掌上电脑 (HPC) 、个人数字助理 (PDA) 等移动计算装置迥然不同:可穿戴计算机不只是将计算机微型化和穿戴在身上,它还实现了人机的紧密结合,使人脑得到直接和有效的扩充与延伸,增强了人的智能。这种交互方式由微型的、附在人体上的计算机系统来实现,该系统总是处在工作、待用和可存取状态,使人的感知能力得以增强,并主动感知穿戴者的状况、环境和需求,自主地做出适当响应,从而弱化了人操作机器,而强化了机器辅助人。 上述技术都是利用人与人及人与世界间口头或非口头的交互方式,使用各种模态来实现多通道通信,本质上都属于支持感知交互的感知计算 ( Sentient Computing) 。 (6). 支持虚拟交互 (VR HCI) 的虚拟现实 (Virtual Reality) :虚拟现实的基本原理是采用摄像或扫描的手段 ( 而不是传统的建模手段 ) 来创建虚拟环境中的事件和对象 , 生成一个逼真的三维视觉、听觉、触觉或嗅觉等感觉世界,让用户可以从自己的视点出发,利用自然的技能和某些设备对这一生成的虚拟世界客体进行浏览和交互考察。其特点包括: 逼真的感觉 ( 视觉、听觉、触觉、嗅觉等 ) 、 自然的交互 ( 运动、姿势、语言、身体跟踪等 ) 、个人的视点 ( 用户的眼、耳、身所感到的感觉信息 ) 和迅速的响应 ( 感觉信息根据视点变化和用户输入及时更新 ) 。这些特点可概括为三大特征:沉浸感 (Iimmersion) :是指用户作为主角存在于虚拟环境中的真实程度;交互性 (Iinteraction) :指用户对虚拟环境内的物体的可操作程度和从环境得到反馈的自然程度 ( 包括实时性 ) ;想象力 (Imagination ) :指用户沉浸在多维信息空间中,依靠自己的感知和认知能力全方位地获取知识,发挥主观能动性,寻求解答,形成新的概念。 (7). 支持人脑交互 (Brain-Computer Interaction) 的脑计算 (Brain Computing) :最理想的人机交互形式是直接将计算机与用户思想和目的进行连接,无需再包括任何类型的物理动作或解释,实现 Your wish is my command 的交互模式 。虽然在可预见的未来这种思想不太可能实现,但对人脑计算机界面 (Brain-Computer Interface , BCI) 的初步研究可能是迈向这个方向的一步,它试图通过测量头皮或者大脑皮层的电信号来感知用户相关的大脑活动,从而获取命令或控制参数。人脑交互不是简单的思想读取或偷听大脑,而是通过监听大脑行为决定一个人的想法和目的,是一种新的大脑输出通道,一个可能需要训练和掌握技巧的通道。 当前,采用第一种方式的图形用户界面仍是应用的主流,尤其是 以超文本标记语言 (HTML) 及超文本传输协议 (HTTP) 为基础的网络浏览器和 搜索引擎的桌面网络用户界面最为普遍,包含了适应不同带宽 ( 从高速视频点播到低速移动电话 ) 、不同尺寸 ( 从手表、掌上电脑到墙壁大小 ) 的各种用户界面;而采用第二种方式的语音、手写等易用而方便的界面也正逐步普及,多通道、多媒体的自然、高效、智能化用户界面正得到快速发展和应用。 . 栗阳 , 关志伟 , 戴国忠 , 笔式用户界面开发工具研究 , 软件学报 , 2003,14(3):392 -400. . Ivan Sutherland , Sketchpad: a man-machine graphical communication system, In: Proceedings of the 1963 Spring Joint Computer Conference, Baltimore, MD: Spartan Books, 1963 : 45-53 . . Microsoft Presspass , Digital Ink, Breakthrough Technology in Tablet PC: Brings the Power of the Pen to the Desktop, http://www.microsoft.com/presspass/features/2002/, 2002 . Walid G Aref, Daniel Barbar, Daniel P Lopresti, Ink as a First-Class Datatype in Multimedia Databases, Jajodia S and Subrahmanian V S, Multimedia Databases, SpringerVerlag,1995 :pp. 113-163 . . Daniel P. Lopresti, Ink as Multimedia Data, In: Proceedings of the Fourth Intl. Conference on Information, Systems, Analysis and Synthesis, Orlando FL, 1998. 122-128. . http://www.w3c.org/TR/InkML . Rejean Plamondon and Sargur N Srihari , On-Line and off-line Handwriting Recognition: A Comprehensive Survey, IEEE Trans. On Pattern Analysis and Machine Intelligence, 2000,22(1) : 63-84 . . 孙正兴 , 冯桂焕 , 周若鸿 , 基于手绘草图的人机交互技术研究进展 , 计算机辅助设计与图形学学报 , 2005,17(9): 1891-1899. . Matthew Turk and Mathias Kolsch , Perceptual Interfaces, University of California, Santa Barbara, Technical Report 2003. . 王坚,董士海等,基于自然交互风格的多通道人机交互模型,计算机学报, 1996, 19( 增 ) 。 . Ian H S Cullimore, An analysis and implementation of informal Human-Computer Interaction, Cognitive and Computing Sciences, The University of Sussex, May 2000. . Sun Zhengxing and Liu Jing, Informal User Interface for Graphical Computing, Lecture Notes in Computer Science, Springer-Veralg, Vol 3784 , 2005 : 675-682. . Picard R D 著,罗森林译,情感计算,北京理工大学出版社, 2005 . M.A.L. Nicolelis, Action from thoughts. Nature , 409, 2001: pp. 403407 . . Jorge J A and Glinert E P, Calligraphic Interfaces : towards a new generation of interactive systems , Computers Graphics, 2000, 24(6) : 817-823 。
个人分类: 研究报告|14269 次阅读|1 个评论
一句马克-维瑟的名言
abyssoop 2010-2-24 11:31
今天读internet of thins一书,第一章的第一句就是Mark Weiser的名言,这里摘出来与大家分享 The most profound technologies are those that disappear. They weave themselves into the fabric of everyday life until they are indistinguishable from it. 大致意思就是:最具影响力的技术是那些正在消失的技术。它们渗透到日常生活的方方面面,直至成为日常生活的一部分而无法区分。
个人分类: 论文交流|5976 次阅读|0 个评论
人机交互中的计算机视觉技术
热度 1 njumagic 2009-2-8 16:40
在人们的交谈和彼此间的交互过程中,视觉信息显然是很重要的。通过视觉的模态,我们可以立即确定许多显著的关于他人的事实和特征,包括他们的位置、身份、大致的年龄、注意力的焦点、脸部表情、姿势、手势和一般的活动。这些视觉线索影响到了会话的内容和进程,并提供了一些上下文相关的信息,这些信息与言语不同,但与此相关,例如,一个手势或面部表情可能是一个关键的信号,一个注视的角度可能可以消除在言语中这个或者在那边的指带不明。换言之,在人与人的交互中,视觉和言语是联合表达,相互补充的通道。正如语音自动识别是试图构造能够感知人们交流的文字方面的机器,那么计算机视觉技术是用来构造能够观察人并自动感知相关视觉信息的机器。 计算机视觉是一门试图通过图像处理或视频处理而使计算机具备看的能力的计算学科。通过理解图像形成的几何和辐射线测定,接受器(相机)的属性和物理世界的属性,就有可能(至少在某些情况下)从图像中推断出关于事物的有用信息,例如一块织物的颜色、一圈染了色的痕迹的宽度、火星上一个移动机器人面前的障碍物的大小、监防系统中一张人脸的身份、海底植物的类型或者是MRI扫描图中的肿瘤位置。计算机视觉研究的就是如何能健壮、有效地完成这类的任务。最初计算机视觉被看作是人工智能的一个子方向,现在已成为一个活跃的研究领域并长达40年了。 传统上,计算机视觉研究是被一些主要的应用领域所推动的,例如生物视觉建模、机器人导航和操作、监防、医疗图像以及各种检查、检测和识别任务。近年来,涌现了多模态和感知交互,推动了一大批关于机器视觉的研究。这些努力的重心大多是集成多种感知模态(例如计算机视觉,语音和声音处理,触觉的输入/输出)到用户接口。尤其对于计算机视觉技术,主要的目标是在人机交互中采用视觉作为有效的输入模态。这种基于视频的传感是被动的、无插入的,因为它不需要与用户的交互或任何有特殊用途的装置;传感器也能够被用于视频会议和其他成像用途。这种技术在基于视觉的交互领域中具有良好的应用前景,例如游戏、生物测定学和准入,还有一般的多态接口,能将视觉信息和其他的语音、语言技术,触觉以及用户建模等相结合。 这种关于人的视觉信息的获取,已经通向了计算机视觉中大量的研究领域,着重于建模,识别和解释人的行为。如果可靠且健壮地发放了,这种视觉技术可以支持交互系统中的一系列的功能,主要通过传递相关的用户视觉信息,例如身份、位置和动作,从而提供关键的上下文信息。为了能充分地支持交互中的视觉部分,需要提出几个任务: l 人脸检测和定位:场景中有多少人,他们在哪里? l 人脸识别:他是谁? l 头和脸部的跟踪:用户的头部在哪里,脸部的位置和方向是什么? l 脸部表情分析:用户在微笑,大笑,皱眉,说话还是困乏? l 视听语音识别:使用语音识别以及伴随视话(lip-reading)和face-reading,判断用户说什么? l 眼睛注视跟踪:用户的眼睛朝哪里看? l 身体跟踪:用户的身体在何处? 关节处 (articulation)是什么? l 手跟踪:用户的手在哪里?是2维的还是3维的?特别地,手的结构是怎样的? l 步态识别:这是谁的走路/跑步风格? l 姿势、手势和活动识别:这个人在做什么? 这些任务都非常困难,从一个摄像机拍得图像(有时或者是多相机从不同的视角)开始,这项工作典型情况下至少包括每秒30次的240*320个像素(每像素24比特)。我们试图很快地使这些数据变得有意义。与语音识别问题相比较,语音识别是从一个一维的,时间序列信号开始,然后尝试将其分段并分类成相对少数目的已知类别(音素或词)。计算机视觉事实上是一堆子问题的集合,这些子问题彼此间很少有共同点,且都非常复杂。 基于视觉的接口任务 至今,计算机视觉技术应用到人机交互中已取得了显著的成功,并在其它领域中也显示其前景。人脸检测和人脸识别获得了最多的关注,也取得了最多的进展。第一批用于人脸识别的计算机程序出现在60年代末和70年代初,但直到90年代初,计算机运算才足够快,以支持这些实时任务。人脸识别的问题产生了许多基于特征位置、人脸形状、人脸纹理以及它们间组合的计算模型,包括主成分分析、线性判别式分析、Gabor小波网络和.Active Appearance Model(AAM).许多公司,例如Identix,Viisage Technology和Cognitec System,正在为出入、安全和监防等应用开发和出售人脸识别技术。这些系统已经被部署到公共场所,例如机场、城市广场以及私人的出入受限的环境。要想对人脸识别研究有一个全面的认识,见 。 人脸检测技术在一个场景中从不同的范围和方向检测所有的脸在近年来伴随着实时统计学习方法已经有了显著的发展。头部和脸部跟踪在一些强约束力的情况下运行得很好,例如,当在研究对象的脸上作标记时。但是,在一般环境下,脸部姿势和脸部特征位置的跟踪依然是一个难题。脸部表情分析也同样是,通常它是依据准确的脸部特征跟踪作为输入的。现在已经存在一些有前景的能够识别一定范围内的脸部特征的原型系统,但是它们在性能和鲁棒性上仍然有局限性。 眼睛注视跟踪(eye-gaze tracking)已经商业化多年,主要用于残疾的计算机用户和科学实验。这些系统采用主动式传感,向用户的眼睛发送一个红外灯源作为一个基准方向,但严格限制了头部的活动。以现在的形式,这些系统是不适合通用的多模态用户接口的。 为了确定一个人的位置或者为头部和手部的运动建立一个基准坐标框架,在视频流中跟踪身体是非常有用的。早期的系统例如Pfinder,通过明晰静态背景模型,产生了一个身体轮廓的表示,且标识了头部和手部的可能位置。一些研究者使用了更为详细、关节运动更为复杂的动态身体模型,尽管将图像数据匹配到这些模型中是复杂而又慢的。虽然在动画制作中广泛使用了动作捕捉系统来捕捉身体的精确动作,但需要用户穿上特制的衣服或者一些接受传感器和标记物,这样就使得这种方法无法适用于通用的多模态接口。 当环境被控制(例如,固定的照明条件、相机位置和背景)且手没有重叠时,二维和三维的手部位置跟踪并不困难,关注皮肤的颜色是典型的方法。然而,普通人的行为,手常常是隐藏的(在口袋中,放在头后)或是被另一个手臂、手所遮挡。在这些情况下,手部跟踪就变得困难且需要基于人类运动的预测。一个更困难的问题是跟踪完整的手部关节由手结构定义(23个手腕DOF,6个位置和方向DOF)的29个自由度。Wu和Huang提供了一个对手跟踪和手势识别的概述。 对人身体及其组成部分的定位、识别和跟踪只是交互的第一步,此外需要识别行为。感兴趣的行为可能有结构化的、分离的手势,连续的人类自然手势或者由一系列时间范围定义的行为(例如,离开房间,在桌子上吃饭)。手势识别可以作为一个直接的模式识别问题来实现,它试图匹配身体参数的某个序列,或者是一个概率系统用来推理基于统计定义的姿势模型。这个系统必须要能区分偶然的人类动作,有目的的操作物体的动作和那些用于交流(有或无意识的)的手势。语言和手势间的关系是很复杂的,能使通用的且上下文无关的姿势识别自动化是一个长期的目标。 虽然在某些情况中可以使用简单的状态空间模型,但在建模和识别序列姿势时通常采用统计模型。由于统计模型在语音识别领域中的成功使用,隐马尔可夫模型(HMM)已经被广泛地用于建模和识别姿势。一个早期的例子是一个识别系统,能够识别一定数量的由Starner和Pentland开发的美国手语。现在已有一些源于基本HMM方法的变形,用于更好地匹配视觉中更为广泛的特征和模型。因为许多手势包括多个组成部分,例如手部动作的弧线和姿势,序列信号比语音识别中的更复杂。贝叶斯网络在姿势识别中也显示其前景。 基于视觉的接口技术进展 尽管在一些个别应用中取得了成功,但纵使在几十年的研究之后,计算机视觉还没有在商业上被广泛使用。几种趋势似乎表明了这种情形即将会发生改变。硬件界的摩尔定律的发展,相机技术的进步,数码视频安装的快速增长以及软件工具的可获取性(例如intel的OpenCV libraray)使视觉系统能够变得小巧、灵活和可支付。近年来,美国政府已经投资了一些人脸识别评估项目:最初为1993年到1997年的人脸识别技术(FERET)项目,最近为2000年到2002年的人脸识别vendor测试(FRVT)。这些项目提供了对用于研究和商业的人脸识别系统的性能评估。FRVT 2002全面地测试了10个商业系统,收集了一个非常大的数据集的性能统计:37437个人的121589张人脸图像,通过多维(在室内或室外,男性或女性,年轻的或年长的)表示其性能特征。图3显示了最佳系统对正面人脸图像的5项分类的人脸检验结果。 最近几年,DARPA资助了用于远距离识别人和视频监防的大型工程。正在进行中的远距离人物身份(HumanID)项目将使用多模态融合技术,包括注视识别,即在很长的范围内(25-100英寸)识别人物身份。视频监防和监视(VSAM)项目试图为未来的监防应用开发对感兴趣的活动的识别系统。国家科学基金已经给基于视觉接口技术的相关领域中的一些信息技术研究(ITR)奖励了津贴。工业界中公司里(例如微软,IBM和英特尔)的研发实验室在这些领域中做了很多的努力,同样的在工业界中开办了公司,例如个人机器人和娱乐。 近年来,随着许多公司提供人脸识别技术(和人脸检测、人脸跟踪),包括3D方法(例如,Geometrix,A4Vision和3Dbiometrics,见Jain和Ross关于包括计算机视觉和其他模态的生物测定的详细描述),生物测定学市场有了显著地扩大。一些研究团体和公司已开发了人脸跟踪技术,尤其是用于计算机图形市场(游戏和特效)。 简单的视觉技术有效地用于交互环境的一个不错的例子是MIT媒体实验室的幼儿室工程。幼儿室为孩子提供了一个交互的,叙述性的剧情空间。用计算机视觉来识别用户的位置和他们的活动可以帮助给参与者传递一种强制性的交互体验。现在已经有许多其他的由大学和研究实验室开发的强制性原型系统,其中有些处于步入市场的初期阶段。 技术挑战 除了适合生物测定市场的人脸识别技术外,几乎很少有成熟的计算机视觉产品或技术以支持与用户的交互。然而,有大量且数量递增的研究项目和这类原型系统。为了从实验室走向真实世界,必须说明几个基本问题: l 鲁棒性:大多数视觉技术是脆弱,缺乏鲁棒性的,照明和相机位置的微小变化可能会导致系统出错。系统需要在各种条件下工作,且能适度地、快速地从错误中恢复。 l 速度:对于大多数计算机视觉技术,在全面和快速交互两者间都采取了实际折衷。视频数据太多了,以至于无法实时地做复杂处理。我们需要更好的算法、更快的硬件设备和更灵巧的方法来决策需要计算什么,可以忽略什么。(提供了已处理的图像流的数码相机能够有很大的帮助) l 初始化:许多技术在得到了初始模型后,跟踪效果都很好,但是初始化步骤往往很慢且需要用户参与。系统必须能快速和透明地进行初始化。 l 使用性:对于开发系统的人来说(花费了许多时间研究复杂难点)视觉技术的示范使用能工作地很好,但对于那些没有经过系统训练的新手却很困难。这些系统需要适应用户,处理无法预期的用户行为。此外,它们需要提供简单的纠错和处理错误解释机制以及能提供反馈给用户,以避免预料之外的灾难性后果。 l 上下文集成:一个基于视觉的交互技术本身不是最终的结果,而是一个更庞大的系统中的组成部分。手势和活动需要放在合适的应用过程中加以理解,而不是孤立的行为。从长期来看,这需要在各种应用的上下文关系中深刻地理解人类行为。 前三个问题已经在日常的研究实验室和全球的产品研发组织得到了关注,使用性和上下文集成很少被考虑,但是随着更多的应用开发,这两个问题将会提到研究日程的前面。 结论 计算机视觉是一个非常困难的问题,在经过几十年的研究及几个主要应用的推动后依然不能解决通用情形。但是,在过去的十几年里,人们对于相机的回转使用以及用计算机视觉来看人的兴趣提升,即检测和识别人脸,跟踪头部、脸部、手部和身体,分析脸部表情和身体动作,识别手势。在构造实时、健壮的视觉技术上取得了重要的进展,部分是因为摩尔定律驱动的硬件性能的极大提高。一些子问题(例如,人脸检测和人脸识别)已经获得了显著的商业成功,但是其他部分(例如手势识别)还没有在商业上找到一个大的位置。所有这些领域,仍然存在重要的速度和鲁棒性问题,因为快速的方法总是脆弱的,而依据原理的全面的方法又是非常慢的。与语音识别技术相比较,语音技术已经商业化多年,且稳步前进几十年,计算机视觉技术HCI依旧处于石器时代。 然而,有许多理由可以对未来的计算机视觉接口技术充满乐观。个人组件技术在过去的几十年发展迅速,一些领域趋于商业化,而其他的也应该很快跟上。计算机视觉的基本研究正继续发展,新的想法将很快应用到基于视觉的交互技术中去。现在有许多关于这个研究领域以及与其他模态集成的会议和研讨会。人脸识别领域提供了一个很好的模型,有向的资助、共享数据、短兵相接的竞争到商业应用,这些都极大地推动了技术发展水平。其他技术也可能沿着这条路走,最终,大量的研究、技术和商业应用将帮助计算机视觉技术走到多模态人机交互的前端。 (刘婧编译)
个人分类: 学术动向|13134 次阅读|3 个评论
普适计算中的数据管理
njumagic 2009-2-8 16:34
体积更小、处理能力更强的设备,改进的有线无线的网络,数据传输和表示的标准( HTML 、 XML 、 HTTP 、 WAP 等),这些因素的结合使得计算机在人的日常生活中扮演更重要的角色。有理由相信最终这些设备将普遍深入到我们生活中对我们的生活起到关键的作用,但是一切都是在不知不觉之中,好像在无形中发挥作用。这种被成为普适计算的概念在过去的十年中吸引了很多计算机研究者,这个概念首先是由 Mark Wieser 提出的。 当然,任何依赖于计算机或 PDA 人知道,普适计算实现之前还有很多工作要做。加快实现普适计算的必须的技术是提高速率。很多这个领域的研究者关注的是改进设备本身和他们使用的通信技术。对于设备,关键是在减小体积、成本、功耗的同时提高它的功能。对于通信技术,关键是提高带宽和覆盖率,发展协议使得能有更强的容错性和提供无线和移动连接。 改进的硬件和网络显然对于普适计算的发展十分重要,同样重要的和困难的是数据管理。为了支持计算行为背景化,数据必须是可靠地、高效地被存储、查询和传输。传统的数据管理如缓存、并发控制、查询处理需要适应普适计算环境的要求和限制。这些环境包括资源限制、间歇的变化的连接、移动的用户和动态的合作。 本文中,我们首先讨论普适计算支持的应用的主要特征和这些应用对数据管理的要求。然后我们介绍数据管理的不同方面以及它们是怎么适应这些新的要求的。 应用和数据管理的要求 虽然对普适计算的前景大家由共识,但是并没有明显的所谓的杀手锏应用。很多研究者和产品开发者开发样品在特定情形下阐述这种技术的潜能。由于这种综合的全局的普适计算的应用,特定的产品具有比单个应用多很多的功能。有的厂家提出这种技术强调的是用户的经历而不是一个或以一套特定的应用。这些情形中用户被若干移动设备包围,在不同的环境(家、办公室、汽车、会议室)中移动。这些设备主动地提醒用户制定的任务,对这些任务相关的部分或所有信息提供访问,并且使得在任务中的独立的小组之间通信变得简单。 功能的种类 与其举例另外的场景还不如分类各种场景功能有用。这些功能分类用来决定数据管理的要求。功能可以按照以下的方式分类: 1 )对移动的支持-小型设备与无线通信的融合意味着这些设备可以被用于移动的情况下。所以,相关的应用要能够在变化的、动态的通信计算环境中运行,可以从一个网络提供商移动到另一个网络提供商下正常操作。此外,本地化的新的应用同样要被开发。 2)上下文感知-如果设备真正做到是普遍存在的,那么它们就必须做到在大范围的持续变化的条件下使用。对于那些真正对人有帮助的设备,它们必须对环境以及用户正在执行的和即将执行的认为能够感知。上下文感知的系统从智能提示系统(提醒用户一个重要的事件或者数据)到smart空间(房间或者环境能对当前出现的人和事进行适应)。 3)协作的支持-普适计算应用的另一个重要主题是对一组人的支持。这种支持包括通信、会议和共享数据的存储、维护、传输以及表示。如果所以的参与者可能的话,协作可以是实时发生的,当然可以是异步的。除了支持当前发生的协作,系统还要求能回溯和分析已经发生的行为。 适应性和用户交互 上述的这些功能对数据管理提出了许多挑战,其中对适应性的要求是所有的功能共同要求的。移动的用户和设备、不断改变的上下文、动态的群组这些对适应性提出很高的要求,而这恰恰是传统的数据管理技术不能表示的。适应性是本文余下部分讨论的技术的共同的主题。 普适计算是为了提高人在执行各种任务的能力的,所以这些应用中用户是实时地与计算机进行交互。有的情形下,我们把提供用户对不确定事件的动态干预作为提高适应性的一个方面。群组系统中对共享数据的访问和更新是这种设计思想的具体的例子。不像传统的数据库系统并发控制机制中利用严格的用户交互的类型和度的限制,群组系统数据管理者则很少采用严格的限制规则。放宽规则降低了系统自动处理的范围的冲突。系统自动处理它们能够处理的事件,当它们检测到不能处理的冲突的时候,只是简单地提醒用户发生冲突了并允许用户根据当时的情形来处理冲突。把用户包括在处理的过程中可以提供更强的适应性。 其它还要一些数据管理的要求虽然并不像适应性那样作为所有功能共同要求的,但是为了支持全面的普适计算的环境也应当被提出来。例如,移动性带来很多问题。首先,移动的终端以及有限的存储能力意味着普适计算系统能够从不同的变化的位置接受和发送数据。这就需要对不同的代理支持,因为用户要在不同的代理之间移动。协议就必须在这样的要求下构建以满足不见断的支持代理的变动。移动性还要求智能的数据筹备,这样数据能够在用户需要的时候放置在离用户很近的位置。 其次,移动性把在固定场景下不是很重要的位置因素引进到应用中来。例如,很多为移动设备服务的系统是以位置为中心的。假定有这样的系统,它能够回答这样的问题找出以我的位置为中心2英里内的药店。这样的系统一定可以跟踪当前用户的位置并能够访问到与相关位置、距离有关的信息。从更一般的范围说,系统能够大量的移动对象,并能预测它们未来的位置。例如交通控制系统要追踪大量的汽车,包括它们的当前位置、方向以及速度。以位置为中心的计算要求特定的数据结构,这种结构能够把位置信息有效地保存起来。 上下文感知的要求 上下文感知的功能对系统中保存的知识以及如何利用这些规则提出要求。为了支持上下文的感知,系统必须保存用户的要求、角色、偏爱等内部信息。这种系统的一个例子就是智能的日程安排系统,它能够根据用户的近期安排给用户发送信息。比如用户下午与特殊的客户下午见面,系统可以自动向用户发送与下午见面相关的信息(客户帐户、以前会谈的结果、与会议主题相关的文章)。 负责的系统可能利用各种传感器来监控环境并跟踪用户的行为以帮助用户完成正在进行的任务。这种基于传感器的系统要求能够实时处理数据流并能够分析和解释这种数据流。所以普适计算中数据流处理扮演着重要的角色。 无论系统是怎样接受上下文信息,从传感器、用户输入、个人信息管理运用或者联合各种方式,系统必须能够很好地对这些数据提供处理以能够准确地获致当前环境的状态或者用户的兴趣。上下文感知的应用还要求系统有推论和机器学习的能力。所有的这些必须能够处理不完整的、有冲突地数据,并能够足够有效地与用户进行交互。 协作的要求 我们讨论的最后一组要求是为了支持动态的一组人或者工作的协助。如前面所述,这种应用的主要的要求是适应性的要求。此外,除了适应性还有其它的一些尚未讨论的要求。首先是同步和一致性地要求。任何支持协作的应用的核心是一组共享的数据的建立、访问、修改和删除。这种功能必须是灵活的这样不同类型的交互(从聊天的工具到传统数据库的四个特性原子性、一致性、隔离性、持久性)才能够很好的支持。 协作应用的另一个要求是对历史的可靠的可行的存储。如果协作是在同步方式下发生的,用户要能够访问在协作的早些时候发生的事件。还有,如果协作的参与者允许在中途有变化,对参与者和其行为的持久的记录可以加快新的参与者的融入。这种持久的记录可以有效的作为行为的日志,而用作对协作的各种结果的起因的追踪,或者用作机器学习或者数据挖掘来帮助优化以后的协作。 数据管理技术的例子当前进行的项目 前面的讨论中描述了为了支持普适计算场景的数据管理中遇到的挑战并概述了普适计算应用的特性。这一段,我们主要描述两个正在进行的系统。第一个系统是Data Recharging,发掘用户的兴趣和偏好信息并把这些信息更新和相关的信息传递给用户的移动设备。第二个系统是Telegraph,建立适应数据流结构的数据处理来处理不同的数据流上(传感器数据流、动态环境数据流)的查询操作。 Data Recharging:Profile-Based Data Dissemination and Synchronization 移动设备需要两个资源:数据和能源。由于移动设备体积和成本的限制使得它不可能始终连接到固定的能源和数据(因特网等)上。移动设备利用缓存技术来解决这种不相连接的问题。设备利用充电电池来缓存能源,利用本地存储来缓存数据。一段时间后,设备本地的资源必须连接到固定的资源上充电。利用现在的技术设备中已驻数据的更新和补充比能源的补充更麻烦、和易出错。能源的补充可以在任何地方,只需要很少的用户干预,并能够累进的进行充电时间越长,能源储备越充足。但是,数据的补充并不具备这些特性。 Data Recharging项目是开发这样一种服务和相关的基础设施,使得移动设备在任何地方、任何时间内接入到因特网以后设备就拥有比接入以前更多更有用的信息。数据更新的开始要求设备拥有一个插入式的接入因特网的接口。设备接入因特网的时间越长,获取的信息越丰富。虽然和充电类似,但数据更新在数据传输中的数据类型和数据量更加复杂。数据的更新必须根据更新设备的能力、更新数据要支持的任务来量身定做。 不同的移动用户有不同的数据需求。商务旅行者希望更新合同信息、目的地的旅馆概况和价格等。学生要求访问最近的课程笔记、预习课件、查看实验室公告。数据的更新把用户不同的需求看作特征。特征可以理解为对可用数据的详审找出与用户相关的信息并决定它们对用户的价值。 数据更新的特征包括三个类型的信息:首先,特征描述了用户感兴趣的数据类型。这种描述应当式公开的,这样它能够把新创造的数据和已经存在的数据都包含进来。这种描述也应当非常灵活的这样才能够表达不同类型数据和媒体的属性。第二,由于带宽、本地存储容量、数据更新时间的限制,只有一定范围内的数据能够被传输到设备中来。特征还要根据数据的优先级、多个可选项中用户的选项、一致性的要求和其它的特性能够表述用户的偏好。最后,用户的上下文能够动态地和由用户的特征参数化表示的更新过程相协作。 我们前面对用户的特征的工作主要关注以下几点: 1) XML文档流上高效处理特征;2)通过外在的用户的反馈学习和维护用户特征;3)开发移动设备同步大规模的可靠的系统。数据更新是建立在这些工作的基础上,但针对更加意图明显的用户特征(包括用户偏好、上下文信息等)还要开发相应的语言和处理策略。此外,我们还需要开发可为全球众多人口提供数据更新服务的可升级的广域系统体系结构。 适应的数据流操作 普适计算环境的另一个关键的方面是数据可用性的不确定和动态数据流的管理操作存在的挑战。例如在移动的应用中,数据根据用户的需要在不同的系统之间移动。当数据在端点生成以后,数据会以不确定的方式流向系统,过程中可能被代理商存储、转发。在有的应用中信息流也会出现,像数据分发系统中新建立数据和修改过的数据发送到用户和缓存中去。 传统的数据库查询系统在这种环境中由于以下几个原因而停顿:首先,它们是基于静态的查询优化策略。数据库的查询方案是通过简单的成本模型和对数据的统计来建立的。在动态的数据流环境中,这种方案是不能很好的执行的。因为数据到达的速率、顺序和数据流的行为是难以预测的,从而对数据就没有可靠的统计。 第二,现在的方案不足以处理查询操作中的失败。在现在的数据库系统中,数据源的失败没有被检测到,则只是简单的冻结查询操作,以等待数据的到来。如果检测到了数据源的失败,则只是放弃或者重新开始查询。在数据源和流动作不可预测的普适计算环境中这些方法是不恰当的,因为查询操作可能要运行很长时间。 第三,现在的查询方案是优化成分批的操作,整个查询的结果作为最后的目标来传输。在普适计算环境中,用户要与系统进行交互,这种策略是不可取的。一旦可以了,处理的数据应当传递给用户。而且,由于是交互的,用户可能要根据前面返回的信息或其它因素来修改查询。系统应当能够根据用户的需求调整变化。 加州大学伯克利分校的Telegraph项目通过开发适应性数据流操作引擎来研究这些问题。Telegraph利用一种新颖的策略来执行查询操作。这种策略是基于这样的思想,数据流控制结构把数据逐项发送给查询操作者。Telegraph并不依赖于传统的查询方案,但是允许在查询中应用这些方案。对连续的动态的数据流的查询,系统能够适应于数据到达的速率、数据特征、存储通信资源的可用性等因素的变化。 除了新颖的控制结构,Telegraph还使用了非阻塞的均衡的查询处理操作,如Xjoins和Ripple,这些能够处理它们输入数据的变化和不可预测的数据到达。Telegraph系统还存在的问题由基于群的开发、处理引擎的广范围的实现、容错机制的设计、对传感器的连续的查询、基于特征的信息分发和用户接口问题。 结论 普适计算是未来一个引人瞩目的现象,它在以越来越快的速度在一步一步地实现 。 更小的、处理能力更强的设备通过有线的或无线的网络相连接组成了全新的应用,改变了现有的计算形式。除了新的设备和通信的机制,实现普适计算的关键技术是数据管理。数据是普适计算应用的核心,这些应用和环境又对数据管理技术提出了新的挑战。 在本文中,我尝试着从数据管理的前景来概述普适计算的关键的因素。这些方面归纳成三个方面: 1 )对移动性的支持, 2 )上下文感知, 3 )对协作的支持。我们检查每个因素来找出这些因素对数据管理提出的要求。适应性是这些因素提出的根本的要求。传统的数据管理技术在这种计算环境中被重新考虑。 我描述了两个正在进行的项目来检查数据管理中的几个关键的技术: DataRecharging 项目的目的是基于复杂的用户的特征提供与移动用户的高度相关的数据的同步和分发。 Telegraph 项目是开发动态数据流的处理引擎来高效地处理从网络资源到传感器的数据流。 当然,数据管理领域中还有很多本文中没有涉及到的问题。首先,多个应用和数据类型之间的协同,这取决于数据交换的标准、资源的发现、对象之间的通信。这个领域有了很大的进展,这些研究只是标准化过程中的一小部分。其次,另一个重要的领域是开发全球范围的、安全的、关于档案的信息存储应用。这种应用的例子是加州大学伯克利分校正在开发的 OceanStore 系统。 总的来说,在可以预见的未来,普适计算给数据管理带来了很多的机会和挑战。我们应当认识到,虽然现在很多关注在于通信的协议研究,但是在普适计算的开发中数据管理扮演着核心的角色。这个领域的进展最终取决于我们解决复杂的数据管理问题的能力。 (李彬编译)
个人分类: 学术动向|5343 次阅读|0 个评论
环境智能(AMI)技术
njumagic 2009-2-8 11:59
描绘未来的电影中常常包括了对未来住宅的想象:这些住宅配备了大量智能设备(住宅内布满智能设备),可以预料你所需要的一切。它们通常(被描绘成)存在于一个普遍智能化的建筑中,这些建筑拥有多种智能运输系统,并无缝地将从健康到购物、从娱乐到法律等多种服务集成。这或许与我们对日常公共服务的体验只有微小的差异,但却可以随处得到便利的帮助现在正进行大量研究,以构造一个充满欧洲人称之为环境智能的环境。 环境智能汇聚了多个计算领域。首先是普适计算,其主要贡献在于发展了高度便携化或者大量低成本计算设备的各种事实联网能力,。第二个关键领域是智能系统的研究,提供了学习算法和模式匹配,语音识别和语言翻译,手势分类和状态评估。第三个要素是环境感知,可让我们追踪和定位各种类型的对象,并表示对象与其所处环境的交互。最后,对环境中对象间交互的评价是最本质的。 欧洲环境智能发展项目也给出了一些尝试说明其研究主旨所能产生的场景,试图使其如所有对未来的假想一样来激发(人们)的想象力。第一个场景是:假设我们遇到一位女性,她显然是一位新商业精英,她正在诸如机场、宾馆、会议中心、汽车和高速公路等多个环境智能中操作,在每次设置中,高度分散的设备都提供了及时的服务:或是为她处理过路费和交通阻塞等通往海关的障碍,或是根据当地的文化法则储备和定制可靠的内容。第二个场景是拥有其个人数字代理的某个人,他用之过滤纷至沓来的信息,并以不同方式作出应答。在这个例子中真正的智能是此人必须接听他妻子的电话。另一个场景是利用智能环境来有效地提供服务:通过汽车共享来优化交通,保证你的旅行路线尽可能高效。同样,你想邀请朋友共进晚餐时,你的购物单便可以依据你的冰箱储备状况得到。 这些场景都很诱人,但它们可行吗?根据当代技术的发展速度,答案可能是行。很容易忽视事物改变有多快。 1990 年 Roy Want 和他的同事在消失的硬件中指出:不存在无线局域网标准,移动设备只能忍受几十 M 的处理器速度, PDA 只有很小的内存, PC 也只有 30M 的磁盘容量。事实上,过去的十年里,无线网络、处理器速度、存储和显示技术都取得了令人惊奇的进展。这些技术将继续发展,并为环境智能的前景提供多方面的基础支撑。随着大量高处理能力和低耗能设备的涌现,我们能做越来越多的事:我们可以制造芯片用来解决复杂而特别的问题或是人脸识别,或是声音识别,或是路线规划,或是约束求解。更多的内存意味着我们至少从技术角度不必为高速缓存和镜像等担心。 这些发展应用到办公、居家和汽车环境中是环境智能的第一个预兆。我们中许多人在拥有无线连接的办公室中工作和参加会议。这意味着我们身边有大量繁琐事务,这会令引起那些宁可我们集中注意力在会议上而不是收电子邮件的人们的极大烦恼。 在家里,我们可以通过我们的宽带连接观看任意数量的未来居家。不管是 MIT 的 House_n , Georgia Tech 的 Aware House ,或者是 Ericsson 的智能管理,每一种都提供了现在的研究状况。 在汽车里,我们可以看到环境智能的最完整的雏形。开车上班时,定位系统给出避免交通拥挤的建议或者是各种服务的导航信息;引擎监视系统保证车辆的最优性能;维护预测系统能对可能产生的问题提前准备;还有发生故障时工作的故障检测系统。车辆对刹车、倒车和停车添加了一些特性;语音合成系统和各种高级显示装置已非常普遍。这部分是由于汽车制造商控制了子系统的构建和集成。他们可以控制通信协议,并坚持供应商制造以满足特殊要求。运行这些系统的成本与运行整辆车相比较是很小的。 对于环境智能的真正挑战应该是电源的持久性问题。如何保证大量的设备和普适存在的支撑环境一直具有源源不断地能量?此 外,用户也成为一个问题。比如,房屋居住者到底想要什么?系统可以识别出一张友好的脸,或者更重要的是能识别出不友好的人脸,并确定出有害的侵扰,通知有关部门,这些似乎很诱人。系统能够根据外部环境的条件、用户的数量、位置和活动调整电源和照明程度,这听起来也很不错。智能控制器和基于知识的系统现在能完全做到这些。也存在这样的设备,能观察我们看电视的模式,并把可能吸引我们的电视节目推荐给我们或录制下来。当冰箱储备很少时,我们能及时进行采购。所有这些,在比居家更广的环境中,将变得更加智能和更加容易部署。这些数字环境能真正地使人们更强吗? 事实上,人们在到家时不愿给别人打电话、打开烤炉或是设置加热器和照明级别。一个真正的挑战是了解人们如何生活,如何利用他们的生活空间。例如,负责内部装潢的设计师会注意到厨房是一个复杂的生活空间,我们在里面娱乐、吃饭、烹饪、看电视和打电话,有时还会为孩子腾出一个玩耍的地方。这种在一个房间里的生活是一个古老的模式,由于时间限制,这种模式现在依然方便和受欢迎。调查表明当厨房的面积在增大时,烹饪的区域却没有变大。这种在生活方式上的变化深刻地影响了我们如何通过技术来支援生活方式。但是真正的难题在于理解人们在家中到底想要什么。 当然,还是存在困难的技术问题。如何在家里构造一个数字化网络或环境,保障人们的隐私不被其他网络所干涉?如何建立一个集成的居家网络结构,使建筑人员能够在墙上安装开关,能对一系列的设备进行无线控制?如何保证语音识别能在各种家庭环境中运行可靠? 环境智能和发展中的普适计算有挑战也有希望,并充满了各种学科的机会。随着技术消失到背景中,我们需要识别、组合、配置和维护许多具有不同能力的互联嵌入式系统。需要注意的是:这些系统需要对物体和人物进行定位和识别,它们也需要分析环境,适应并从用户方进行学习。 环境智能开辟了一个空前体验的世界。随着环境感知、自然交互及信息的普适性等技术的成熟,人类与电子设备的交互也会发生改变。环境智能将把主要的挑战放在多媒体研究上。分布式多媒体应用以及它们在静态或移动的嵌入式平台上的处理在环境智能的发展中将发挥主要作用。诸如指甲上的媒体和增强型媒体体验的想法代表了新颖而令人鼓舞的概念。这些概念致力于实现特定的用户需求和利益,这些需要和利益从需求的角度看是显而易见的,但由于其内在的复杂性实际上是很难达到的。尤其,环境智能多媒体应用对用户与媒体交互机制影响的要求需要一个与现行交互概念有本质区别的范例。媒体在容量和功能方面的复杂性将继续增加,由此产生了简单而易用的需求。因此,媒体的极大分布和集成应用要求将诸如遥控和菜单驱动的搜索和控制等从所周知的交互方式替换成新颖而更直觉化和自然的概念。 1997年,在ACM的15届年会上,来自世界各地的计算机科学家给出了他们对于未来五十年计算技术的选择。他们的反应是惊人的一致,他们都描绘了一个世界:分布式设备将以无处不在的形式包围我们人类。普适计算是基于这种预测的一个早期范例。1991年,Weise提出了一个成功实现移动计算架构的计算机结构,他描绘了一个人类的任何人可以在任何时间、任何地点访问任何信息源的世界,一个包含成千上万个互联嵌入式系统的大型分布式网络将包围在用户周围,以满足他们对信息、通信、导航及娱乐的需要。 普适计算在某种程度上是发展中的第三代计算机系统的第一个方法(前两代分别是主机系统和个人计算机系统)。世界上许多科学家都在致力于发展这第三代计算系统。MIT的Oxygen项目是其中最雄心勃勃而又著名的方法,大多数这些方法致力于增加工作平台的效率,Dertouzos声称Oxygen技术能增加三倍的效率。考虑到安装、运行和维护软件系统的效果及寻找信息所必需的大量时间,这完全是可能的。但同时,这样的方法应该给用户更多集中在自生的工作任务,而较少关注其效率。 另一个挑战来自于对半导体工业的发展。这一领域的发展典型地遵循More定律,即:硅片的系统集成密度每18个月增加一倍。尤其是计算机工业已经遵循这个规律达四十年之久,同时,其它诸如通信带宽、存储能力和I/O通信率等信息处理系统的特征数量也遵循了同样的规律。最新的发展已经引起改变与媒体交互新技术上来。作为一个例子,在数字记录技术中采用蓝激光将使得消费者的设备可记录数十个小时的视频资料,这使得时间轮换电视成为可能;Poly-LED技术已经可以生产世界上第一代厚度仅为几微米矩阵可编址显示器,这使得任意尺寸的、灵活的超薄显示器成为可能;材料科学的发展已经可以制造具有与纸类似特性的电子薄片,这些所谓的电子纸设备微电子书和备忘录引入了一个新的维度;液晶显示投影技术可使得从一个小的、隐藏着的和固有的芯片中在白墙上显示巨大的和高度定义的图像成为可能。半导体处理技术的发展已经使得活动硅区域从其底层中分离出来,这也使得将这些区域放入到其它介质中(如:玻璃),这将可允许将活动电路集成到任何具体的材料中(如:可穿戴的)。数字信号处理的发展已使得音视频资料的访问、检索和复制等限制的音视频水印成为可能;MPEG-4和MOEG-7等压缩技术允许视频资料的有效传输和复合;语音和视频处理技术的最新进展已经导致发展对话式用户交互(Conversational User Interface)的交互技术的产生,这是向自然人机交互发展的第一步。以上仅是一些最新技术的例子。 由More定律暗示的快速发展使得新的应用会突然出现,有时甚至出人意料,有时在一时行不通的事情可能突然就变成了现实,更实际地讲,这隐含着我们进入了一个将各种电子器件集成到任何可具体化的物理对象中成为可能的时代,这种对象可能是衣服、家具、地毯、墙壁、地板、天花板、建筑和物体,等等,这微电子设备提供了一个新的机会,机箱时代将让位于一个新的时代:哪些曾被装进机箱的声音、视频、通信和游戏等功能将游荡于我们周围环境中,用户可随意地获得这些功能并与之自然地交互 将电子设备移至后台 Weise的普适计算概念需要大规模分布式处理和通信架构,普适计算拓展了存储和计算地地分布性,形成一个智能地协作节点的巨大聚集网络,存储和处理分布性增加的一个显著好处是:这样的网络可以展示如在所谓具有真正智能的生物和神经系统所能观察到的新兴特征。 普适计算系统中的通信和交互节点可以是内部的,也可以是外部的。外部节点,通常称为终端,负责I/O,并直接与环境和用户交互。例子包括:感知器(Sensor)和驱动器(Actuator),交互式屏幕、显示器,语音、书写及触觉信息输入设备等,终端典型地是小的和手持式的,这需要低能耗电子器件。当人们开始携带这些设备时,这个课题将变得更加突出,例如,可穿戴意味着将电子期间集成到衣服中。 内部节点主要是指诸如数据处理、存储和路由这些运行一定网络功能的计算元素,除了存储能力和速度外,低能耗这个课题同样重要。内部节点的例子包括:服务器、路由器、处理器、存储设备和各种环境通信单元,大多数信息处理都在这些内部节点中发生,而且必须提供平滑地操作网络所需要地服务质量。 普适家庭系统中地通信必须满足一定的需要。首先,它必须支持互操作性(Interoperability),这意味着终端必须容易添加、替代或移除。其次,它必须支持多种媒体,包括图形、视频、音频和语言。另一个课题是无线通信。大多数工具都应在没有中介的前提下无线地接入网络,这就产生了对能安全地处理权限、部分信息及多种媒体的网络模型。 作为世界上仅有的真正普适计算系统的Internet在使电子设备消失中起着重要的作用。通过便利化手持设备的无线Web访问,用户可以在任何时间和地点访问Web。语义Web及诸如内容敏感的媒体浏览(Content-aware media browser)的其它所有高层次应用将进一步使得Internet变成为一个交互式的、大规模分布式计算环境。 将用户移至前台 如果将技术限定集成于我们环境的后台,那么,我们就必须建立支持普适计算环境的概念,这个概念应具有支持与这些环境容易、智能和有意义交互功能,在设计出用户需要适应的计算机五十年以后,技术设计者必须进入设计能适应于用户的装置的新时代,这就需要将用户置于数字环境中心的应用场景的设计和实现。Dertouzos从技术和社会这两个视角,给出了这个领域发展的引入注目的观点,称之为以人为中心的计算(Human-Centric Computing)。环境智能(Ambient Intelligence,AMI)通过使得人类环境智能化来寻求实现以人为中心的计算。 两个重要方面将影响对AMI环境的接受:用户接口的社会自然性和将其拓展使得系统能自动适应用户及其环境。用户接口的社会自然性将取决于系统拓展为依从于用户的直觉(Intuition)和习惯(Habit),系统的自适应性(self-adaptablities)取决于其从用户的交互中学习的能力。人类专用的通信中介(如:言语、手写体和手势)与个性化用户需求的可能性的结合将在新的应用和服务设计中起到重要作用。 最后,普适计算环境应该展示情感的一些形式以使它真正是环绕智能。至此,系统的自适应能力应该检测用户的情绪并作出相应的反应。这个课题导致了一个称为情感计算(Affective Computing)新研究领域的产生,这又是一个多学科方法(例如:生理学和计算机科学的结合)。 环境智能AMI中的功能和服务设计取决于以用户为中心(User-Centered Design)的概念。在这种情况下,用户位于设计活动的中心,最终的交互设计从包括概念设计、细节设计和用户评估的设计循环中产生。很多交互设计师遵循由Reeves和Nass提出的媒体方程(Media Equation):人机之间的交互应取决于与人类间交互所依赖的相同概念,这应该是直觉的(Intuitive)、多模态(Multimodal)的和基于情感的(Emotion based)。这些假设本质上是简单的却很难实现,它需要交互技术和计算智能的新的方法。 环境智能致力于通过实现环境对人存在的感知和响应将普适计算所提供的集成性发展更进一步,其重点是从消费者-电子器件间关系的角度关注用户及他们的体验。这种角度产生了涉及自然用户交互和支持以人为中心的信息、通信、服务和娱乐的环境感知结构等一些新问题 一个新范例 由于环境智能的新范例的目标是使电子设备消失在用户环境中,因此需要虚拟设备来支持用户与消失了的电子器件间的自然交互。这个新范例致力于通过智能化、个性化和相互连接的系统和服务创造所需的环境和功能,以此提高人们的生活质量。 Ambient指的是环境,反应了诸如分布性(distribution)、普适性(Ubiquity)和透明性(Transparency)等典型需求。分布性指非集中式的系统控制和计算;普适性指到处存在嵌入式系统;透明性表明了周围环境系统是无形(Invisible)而不醒目的(Unobtrusive)。 Intelligence意味着数字环境呈现社会交互的特别形态,换言之,环境必须能识别生活在其中的人,适应他们,并从他们的行为中学习,可能的话还要具有情感。 在环境智能的世界里,由组网的智能设备组成的电子系统将集成到人们的环境中,并为人们提供随时随地所需的的信息、通信、服务和娱乐等服务。设备还能进一步适应甚至预备人们的需要。环境智能的环境将以完全不同于现在的手柄式或固定的电子盒的方式出现。这些新系统将自然地融合到周围的环境中,并可以产生更为自然和隐含的交互方式。 环境智能中主要的新概念是用户介入(User Involvement)。大多数早期的开发致力于推动和促进商业环境中的生产率,这些开发在环境智能的发展中发挥了重要作用。然而,下一步是要将环境智能带入到人类和他们的家中,这将不仅仅只是把效率概念引入到消费者环境中,而是需要一个全新的交互范例。效率概念依然很大程度上依赖于图形用户接口,例如桌面的比喻(由Xerox Palo Alto研究中心于1970年代开发),它已经成为一个世界标准。新的范例需要一个新的比喻,和桌面比喻有相同的影响力,允许在ambient intelligence的环境中有自然和社会性的交互。 Philips的HomeLab是从事于这方面极大挑战的一个体验原型环境的例子。这个实验室由一个房子组成,包括一间客厅、厨房、大厅、书房、卫生间和两间卧室。房屋还包含了一个快速原型环境,环境集成了语音控制、无线音频/视频流和环境感知技术推动新应用的更快发展。此外,复杂的观察系统使行为科学家能在一段长时间内无侵入地观察用户。这使得研究环境智能应用的真正价值成为可能。 环境智能的重要特性 为了精炼环境智能的概念,我和Marzano总结了以下5条重要的技术特性: n 嵌入式(Embeded),许多组网设备被集成到环境中。 n 环境感知(Context Aware),系统能识别你和你所处的环境上下文。 n 个性化(Personlized),系统能调整自身以满足你的需求。 n 适应性(Adaptive),能发生变化以响应你。 n 预备(Anticipatory),系统无需有意识的干涉便能提前准备好你所想要的。 前两条与集成硬件设备到环境中有关,通常是指嵌入式系统。嵌入式系统在环境智能的实现中起到了重要作用,因为它们解释了电子设备嵌入到人们的环境中。国家研究委员会对嵌入式系统的近几年来的发展和挑战作出了一个详尽的概述,MIT Oxygen工程和IBM在普适计算上的努力是致力于将组网设备集成到背景中的另外的组网嵌入式系统方法。 我和Roovers探究了将嵌入式系统完全集成到人们的居家中,将设备分成可随意处理的(Disposable)、移动的(Mobiles)和静止的(Statiics)。 可随意处理的设备是那些小的环境电路,这些环境电路能利用环境中诸如压力和温度等物理变化来工作,它们以非常低的bit率(每秒几个bits)进行无线通信,并只有极小的处理能力(每秒几条指令)。 可移动的设备是指人们可以到处携带的设备。通过电池充电,它们以中等的bit率(上升至1G/秒)进行无线通信,具备中等的计算能力(上升至1G操作指令/秒)。 静止的设备是指大型的固定设备,例如大存储器和显示设备,它们通过有线电源网络进行充电,并能高速地通信和计算。这三类设备的组合构成了一个混合网络,能支持感知I/O通信,例如音频、视频、语音、手势以及上下文感知。 其余三项环境智能的重要特性涉及到电子系统对用户反应的调整。这些系统调整出现在不同的时间范围。 个性化指那些出现在短时间范围(例如,安装个性化设置)的调整。 适应性包括通过监测用户更长的时间来发觉用户行为的变化。最终,当系统了解用户足够好时,便可以检测行为模式,经过一段较长的时间能完成调整。 对于最后一个特性(预备),你可能会想到经典的维多利亚管家一个家族成员不太了解,但却常常比家庭成员更了解他们自己的人,至少是关于某些礼节和老式的行为模式。所以预备能在人们决定需要支援的时候帮助人们。 智能设计 环境智能中的环境设计包括几个具有挑战性的研究问题:关于嵌入式和在这样的系统中注册智能。这里,我从系统、用户和集成方面的角度来探讨这些挑战。 首先,能展现各种形式智能的、用户感知的行为的算法,这些算法。这主要指能在用户和电子系统之间进行自然交互的算法。经典的算法例子包括语音处理任务,例如语音识别、语音对话和语音合成;其他在视觉上的算法例子有跟踪、物体识别、图像分割技术。最近,让用户亲自访问内容的算法颇具吸引力,例如,通过协作式的过滤和推荐技术。此外,复杂的数据浏览技术一种允许基于意图而非正式查询的搜索技术正吸引着一些研究者的关注;增加动量(gaining momentum)也是一种技术,即通过应用能从原始数据中产生元数据或确定媒体的复杂算法来分析和增加媒体。 第二,考虑那类应用到控制系统中的算法。因为环境智能中的环境必须包括许多分布设备,需要智能算法在一个网络系统中管理数据和计算。当强调对可用资源的活动分配时,这个领域被称为资源管理;当强调执行任务的感知性时,被称为服务质量。两个领域都关注用于控制和改变系统功能的适应性算法的设计和分析。特别是,主要的兴趣放在与实时性和在线任务执行有关的需求上。在这个领域中,通过学习进行适应是另一个重要的难题。 第三,确定智能应该置于何处也是一个挑战。环境智能系统不应是单独的设备,而是包含了组网的嵌入式设备的集成环境。环境智能的环境是一些计算、存储和I/O设备的簇,彼此通过普适的宽带通信网络连接,速度可以高达几个Gbps。普适的网络通信包括用来做路由且具有内部存储设备的服务器。所以,用户只能折衷牺牲软件的位置以获取系统的智能。 概略地说,存在两种极端:内部的环境智能和外部的环境智能。对于前者,系统智能作为嵌入式软件被置于终端。 大型设备有效地处理大型软件堆栈,实现复杂的计算智能算法,连接设备的网络在功能上是简单的,使数据通信尽可能地高速。对于在终端以外的环境智能, 小型设备 只允许必要的数据通信,用于产生输出或接受新的输入。系统智能放置在普适通信网络中的强大的服务器上,用户可以通过终端对它进行访问。在内部环境智能和外部环境智能之间进行折衷与复杂的决策有关,系统设计师必须评估系统级别。这样导致的设计问题,称为内外协同设计 ,产生一些关于系统和算法设计以及媒体处理的新挑战。 环境智能的文化 环境智能不仅仅只是一个将技术嵌入到对象中的问题。它包括了最广阔意义的人类文化:普遍的需要;复杂的社会关系;各种价值体系;个人的好恶;经济和自然生态的可持续性;以及在国民社会和商业中的道德规范、行为规范和沟通法则。这也是令环境智能和其他概念,例如普适计算,显著不同的一点。 环境智能引发了想象力,但同时也提出了各种问题。环境智能是什么?将要做什么?如何来做?它看起来是什么样的?将有多智能?我能保持控制权还是将由环境智能接管?何时是可用的?我是否需要它?商业交易将会问诸如此类的问题:人们是否会喜欢环境智能,它能否满足基本的需要和期望?它将会是我们的下一个大商机吗?这是一个我们应该涉足的事情吗?研究机构、政府和其他的权威部门对于环境智能站在怎样的立场?他们会对它进行管制吗?他们会鼓励并提供必要的环境支撑吗? 显然,环境智能试图改进人们的生活质量。但是,存在有一个警告。技术本身是中性的,它是积极地工作还是消极地取决于人们决定如何使用它:并非一切与技术有关的事物是值得做的,对环境智能做出正确的选择对于人们是至关重要的。只有当人们就他们想要怎样的生活品质,看到怎样的世界达成一致时这才成为可能。似乎现在逐渐达成一种意见:要实现可持续性需要平衡三个因素,有时也成为3个P,即人(people),行星(planet)和利润(profit)。 人们需要什么,除了生活之外想要什么?自从人类首先生活在洞穴中,这样的基本动力就发生了重大的改变。尤其是,自从人类开始在洞穴的墙壁上画画,在砖块上雕刻或者用碎石工具,人类就增强了精神智力和物理上的能力。这些活动使人们把无形的变成了有形的。渐渐的,人们开始开发周围的一切以提高生活和扩大他们的能力。现在,方式方法可能不同了,但目标还是一样的。 在这样的行为下,驱动力是人们想要生存,想要获得尽可能高的舒适度和自由度和弄明白整个世界。这种人类根深蒂固的渴望普遍反应在神话传说中和流行文化里(例如,当代文学和电影)。这也同样反应在许多宗教信仰中,它们常常把神视为最强大的,实质却是人类的形态。在整个历史中,为了寻找更大程度的舒适、强大、知识和自由的这种本能已经成为技术革新背后的主要驱动力。人们想要最大的舒适和付出最少的努力。拥有这样的设备在无需干扰人类生活的前提下增强人们的能力,这种愿望驱使设备进一步小型化。许多设备早已经从庞大固定的物体转变成人们可以到处随身携带的小器件了。现在钟成为了手表,最近,电话和音频系统也到达了能够穿戴的阶段了。 技术对人类能力的增强更进一步地扩大了人与他人的交流和更多的社交。人们越是了解另一个人,他们越能意识到他们共享了多少渴望。奴隶制的废除,民主主义的出现以及许多团体在社会中的解放都带来了新技术设备的发展,来执行过去由奴隶和仆人完成的任务。结果是诞生了今天复杂的机械和电子设备,它们扩大了人类的能力,并增进了动作的舒适度和自由度。尽管,科学家由于社会和道德原因放弃了使用器官智能系统,但环境智能系统的使用自然成为下一步。这些系统仍旧能使科学家达到他们的目的,但使用更文明的方式。这点变得日益重要,因为存在越多的不平衡,人们就不耐烦地想看到剩余的。环境智能可以帮助加快这个进程。 环境智能对planet作出的另一个贡献是更好照料环境的潜能。许多新式的生态学的发展可能是由于集成了智能的电子器件到环境中。设想一下废纸篓,它们能够在下一轮的垃圾收集过程中确定是否已装满,是否需要清空;环境感知系统能确定能量的浪费,减少不必要的消耗,或者集成传感器,检查污染和未受控制的废弃物的倾倒。这里只是列举一些现实可能性的例子。 最后,还有一个问题:环境智能是否对新商务的发展以及全世界人民的财富作出贡献。有经济模型适合环境智能的吗?这种潜在的技术存在市场吗?Gilmore和Pine描述了一种新经济,他们称为体验经济。他们把这种经济定位于继经典的日用品、货物和服务经济后的第四波主要经济。一个解释这点的简单方法可能是有关咖啡在经济中的作用的转变。咖啡最初以咖啡豆的形式出现,作为日用品被运往世界各地,并以每单位容积的价格收费。后来,人们想出了对咖啡豆进行烘烤、辗磨、包装的方法,并把它们作为货物出售,每单位容积的价格如所希望的上升了。之后,人们在咖啡里添加了热水并把它作为一项服务,价格再次上升。最后,如果你在埃菲尔铁塔的顶层享用一杯咖啡,那么你就在享受一种体验,你需要支付10美元。 体验经济的总前提是人们愿意花钱享受某种经历,一个被假日经济证明了的概念。体验的一个显著性质是能感受到真实,不管它是由一个真实的或者虚拟的原因引起的,真正重要的是腹部的感觉。人的回忆是一个很好的例子。对个人事件的回想能带来美好的怀旧情结。在环境智能中的虚拟世界能够支持这样的事件。交互式的记忆浏览,用纪念品作为切实的物体,是这种数字体验的例子。但是也有许多其它的例子,例如环境照明,环境声音探测,虚拟世界和 接口。最后,开放的环境智能的环境的存在使人们可以发展个人的应用和服务,这将走向一个彻底无拘束的数字体验收藏。 环境智能的道德规范 由于环境智能的目的是要提供一个以一种不被感知的方式分布在人周围的宁静的技术,因此面对这些新技术对人类可能产生的影响非常重要。以下简要说明一些环境智能中有关道德规范的话题。 信任和忠诚 环境智能中的机会和威胁并存。环境智能能否以人们能够信任的方式进行开发吗?关于环境智能的社会接受性,其中一个核心问题是人们能否适应这样的感觉:周围的环境监视着他们的一举一动,等待恰当的时机对他们进行服务。这种接受程度多数取决于这样的环境带来的功能上的好处,也取决于环境与人类进行自然交互的能力。人们也常常对这样的系统缺乏安全保证表示担心,例如极易被外界侵害。事实上大量的个人信息自由地散布在周围而没有合适的保护是非常危险的。另外,需要认真考虑的是环境中的电子设备很大程度的自主决策可能带来的失控问题。最后,人们也关注到环境智能的绝对技术特性。将环境智能推往极端可能导致整个世界充满数字代理。 跨越界限? 另一个重要的文化论题是想要把环境智能并入到更亲密的环境中:即我们的身体。科学家已经将一些智能元素放置到衣服中,心脏病患者很乐意在他们的体内安放起搏器。Warwick走得更前一步,将芯片植入到他的手腕,与控制手部肌肉的中神经相连。这是一个被称为Cyborg的大型工程中的一个部分,由脊椎损伤组织资助。很显然,这具有医学上的理由。但我们需要多久才能接受因为非医学的理由而植入芯片?人们对身体的态度一直在改变。纹身、刺青,整容手术在现代都非常普遍。最近,Applied Digital Solutions从FDA获准允许医生将芯片注射到儿童或Alzheimer病人中,以使全球定位系统能够追踪它们。如果这类产品获得了广泛的公共认可,人类将会跨越一条重要的边界吗?人们将如何界定器官和非器官,真实的和人造的?那会影响到人们如何看待环境智能系统吗? 不同的真实 本体论是一个并不显然,但同样基本的问题:关于真实本身的特性,或者说至少人们如何认识。Marshal Mcluhan认为媒体是信息比如,人们对电视比现实更感兴趣。法国社会学家Jean Baudrillard说这仅仅是开始。他认为传统的媒体与现实间的关系将要被颠倒。渐渐地,媒体不再被视为仅仅反映或表现现实。他们组成了一个新的超现实,甚至比实际现实更真实。人们把半舞台演出Big Brother称为真实TV,这可能说明了人们对现实的理解比预想的更多。 人们习惯与环境智能进行交互会影响到他们与别人的交互吗?如果人们体验真实世界的方式是通过技术比直接通过感觉更多,那么这些非直接的体验会无根据吗?超现实会比真实世界无效吗?真实世界和幻想的界限在哪里?科学家可能不想讨论这些哲学问题,但我们迟早会面对这些论题的。 结论 环境智能的新范例带来了革新,涉及到设计、外观和电子设备在日常生活中的使用。它能够帮助促进简单和重复事务的完成,但它也将引发一种完全不同于今天的文化。 多媒体处理技术和应用是实现环境智能的关键,它们带来的挑战是设计和实现媒体处理平台和多媒体应用。例如有支持处理速度高达每秒几G条指令的新式媒体处理平台,多媒体标记语言,允许分布式媒体包含不同类型的I/O设备。其他的例子还包括内容增加技术,把有意义的元数据添加到现有的音频和视频内容中;新的压缩和表现技术,使音频和视频能实时地产生复合型媒体;适应技术,以支持用户和移动媒体间的自然交互。 技术不是实现环境智能的限制因素。使计算机消失早已成为可能,但范例的真正成功取决于建立一个与数字环境自然交互的理念。我们必须采用未来世纪中的不可见技术来构造数字环境。智能算法在这方面的作用是显然的,因为它是实现自然交互的关键因素。 (刘婧编译)
个人分类: 学术动向|5995 次阅读|0 个评论
普适计算的过去现在和将来
njumagic 2009-2-8 11:49
Weiser 提出了普适计算的概念,并提出了人与改进的环境的关系的观点,这样的环境包含了随时随地向人提供信息和服务的计算资源。在过去的十年里,普适计算的研究者们尝试着以辅助人的生活而不是控制人的生活为目标对环境的改进作尝试。 Weiser 的观点说明了各种规模的设备的迅速增长,从手持的英寸级的个人设备到大型的共享设备。这种设备的增长确实已经发生了,像普遍使用的如 PDA 、数字平板、膝上型电脑、电子白板等等。对连续的移动计算提供支持的必要的基础设施的发展和部署已经开始了。 Weiser 的观点的另外一个方面是新的应用应当出现从而来支持这些设备和基础设施。普适计算的发展不仅使得基础设施的发展成为可能,而且提供了新的交互方式即分布广泛的对信息和计算能力的访问。在本文中,我们探究从普适计算项目 Xerox PARC 开始以来的十年这种普适计算应用前景的发展。特别地,我们在三个主要领域回顾取得的成绩并且概述仍然存在的问题。 -我们定义了 自然接口 ,自然接口使得人与计算之间的各种交流变得简单。自然接口的目标在于支持人类表达的共有方式和人在生活中的暗示的动作。以前的工作主要集中在语音输入和手写输入,但这些接口在处理这些系统中自然发生的错误是仍显得鲁棒性不足,而且这些接口很难被建立。 -普适计算要求是 上下文感知 的,普适计算的行为要能够适应物理环境和计算环境的信息。很多应用已经引进了简单的上下文,如位置、标识,但是要建立可复用的上下文表示、复杂上下文的传感器融合以及行为识别仍然存在很多问题。 -最后,很多系统在自动捕获生活经验和对这些经验提供灵活的全局的访问仍然存在问题。 如何对普适计算进行评估在普适计算的定义中是含蓄的。 Weiser 把计算设备的空间作为评估的标准。类似地,设备在物理空间的分布可以作为评估系统的一个标准,这样使得人脱离桌面计算机束缚的交互方式。考虑到对临界的确认和相互的合作,把人也作为评估系统的一个方面。最后,时间是评估系统的一个新的挑战。不间断交互(每周七天、每天二十四小时)的可用性揭露了大量把普适计算推向二十一世纪的尚未被探究的交互问题。为了用时间来评估系统,我们在第五段介绍一个新的领域 日常计算, 它解决日常生活中非格式化、结构不明显的活动。这些活动在时间上是连续的,一种没有明显的起点和终点的活动。熟悉的例子有组织任务、和家人朋友通信、信息管理。 本文的结构是按照过去普适计算演化的路径组织的。演化的第一步是由 PARCTab 和 Liveboard 阐述的,计算机可以封装在新的形状。这种计算用具推动传统的计算机科学领域的发展,如网络和操作系统。当传统的鼠标键盘等输入设备不能和这种新的计算机很好的工作的时候,发展新的、更自然的输入方式成为了演化的下一步。例如为了 PARCTab 设计的基于笔的速记语言 Unistroke 。这些基础设施已经为了应用而在部署设备。例如许多导航系统,类似于 Active Bedges ,已经被用于实际应用。 应用设计者在运用普适计算系统开发新的应用的时候发现,通常注意到用户的隐含输入可以减少技术对日常生活的干预。这种以应用为中心的研究的目标是理解日常工作怎样才能更好地被支持,普适计算的引进给他们带来什么改变。例如,在 PARC 公共会议任务中被支持的普适计算应用给会议中材料的记录和组织提供了新的方法。可穿戴计算机最初强调对传统的个人任务的持续访问,如 email 。最近很多应用尝试提高个人的存储量以及在小组之间提供信息共享。普适计算应用研究的方向,即 Weiser 认为的普适计算最终研究的目标是普适计算系统可信赖地、广泛的应用。 现在我们刚刚开始理解连续计算的含义。未来的普适计算不仅仅是帮助完成传统的基于计算机的任务的可持续使用的工具。无论是我们身穿可穿戴计算机、还是在环境中嵌入计算设备,计算机将改变我们对现实世界的理解、提供对远处的人和地点联系的支持、在我们的指尖向我们提供信息、在我们思想和行动上提供帮助。 在本文中,我们在探究上述的交互中的三个领域(自然接口、上下文感知、自动捕获和访问经验)的同时讲述了普适计算的主要历史。在回顾这些研究领域的研究成果的同时还概述了一些仍然存在的研究的难题,以供人机交互的研究者们在新的千年继续这些工作。我们接下来解释普适计算研究中探究连续日常行为的必要性。这样的研究使得普适计算的研究更加进入以连续表示的、综合的交互为特征的日常计算领域。与这三个领域与生俱来的是普适计算的社会效应以及系统评估的难题。我们通过案例的研究和现行的评估策略来对系统评估做总结。 2. 自然接口的计算 普适计算 使得应用发展到走下桌面的地步。这种说法暗示着人与计算之间的交互不想现在的键盘 / 鼠标 / 显示器,而是与现实世界的交互方式更为接近。人说话、打手势、使用手写器具来和其他的人交流。这些自然的动作能够也应当作为普适计算系统的外在的或隐含的输入方式。 支持更多自然的人交流方式(手写、语音、手势)的计算机接口开始成为传统的图形用户界面交互元素的补充甚至替代。这些接口以它们的学习功能、易用性和对写作画画等工作的支持(不改变这些工作的方式)而声名鹊起。此外,这种交互方式还有利于那些对传统的鼠标键盘使用不方便的人使用。 语音相关的接口的研究工作已经开始了很多年。新兴的知觉接口的研究在计算机视觉和计算知觉的一个长期的研究团体支持下迅速的发展。基于笔的或者自由格式的交互在经历了第一次的笔计算的失败后迎来了第二春。最近,研究者提出运用现实世界的对象来操纵电子产品的技术,实现所谓的易懂的切实的接口。 Harrison st al 在计算设备上附加传感器使得这些设备提供由运行在设备上的应用准确解释的物理操纵。在这里我们不对自然接口的工作做回顾,而是关注一下使得高效的自然用户接口快速发展成为可能的两个重要方面。 2.1 First-Class Natural Data Type 为了使得开发更多的自然接口的应用更简单,我们必须能够像处理键盘鼠标输入那样方便地处理其它格式的输入。作为自然接口(音频、视频、数字墨水、传感器输入)基础的原始数据/信号成为交互系统开发中的第一类数据。 作为开发者,我们希望所有的用户接口能够提供对原始数据基本操作的底层的支持,并且对原始的鼠标键盘交互提供支持。类似地,我们需要对操纵语音(提供演讲者停顿暗示、语音段的选择、演讲者的辨认)提供支持。同样也要对视频、数字墨水以及其它信号提供支持,例如传感器探测的物理设备的操作。 拿自由格式/基于笔的交互为例子。许多基于笔的计算注重由墨水转化为文本的识别技术。但是有点应用不需要把墨水转换为文本,例如个人的笔记。实际上,把手写转换为其它格式的数据可能对用户来说可能是冒昧的。相关地,对自由格式、笔输入的标准化支持地研究投入是比较少的。有一些为了在平台之间交换笔输入数据制定的标准,但是很少有为了在程序中操纵自由格式数字墨水而定义的有效的机制。 对像数字墨水这样的自然格式的数据,什么样的操作是必须的?Tivoli系统提供了生成墨水数据、辨认未翻译的自由格式的墨水数据和特定暗示的结构化手势。自由格式数字墨水另一个特殊的有用的特征是能够融合独立的笔划从而使它们形成字母、单词以及语言中的其它片段。例如在Class-Room 2000中生成基于网络的笔记,我们希望讲师用笔写的注解能够链接到在演讲中同时听到的音频或看到的视频。注释是带有时间戳的,但是这并不是总是有用的。因为并不能将在课堂上写的某一个单独的笔划与精确的时间相联系。我们使用时间和空间的启发来静态地将笔划融合在一起,并赋予它们更有意义的单词级别的时间戳。Chiu和Wilcomx发明了基于分等级的凝聚的更通用的、动态的算法来把音频和墨水相链接。这些正在组织的技术需要形成标准,对所有希望生成自由格式基于笔的接口的应用开发者都是可利用的。如Chiu和Wilcox工作中阐述的,有些技术可以应用到不止一种自然数据类型。我们必须还要考虑联合不同自然数据类型的基本操作。 2.2 Error-Prone Interaction for Recognition-Based Interaction 当应用到基于识别的任务时,自然接口遇到一类新的问题:识别产生新的多样的错误。当识别的错误发生的时候,系统的设计者最初反应都是消除错误,例如提高识别成功率。然而Van Buskirk和LaLomia发现要人们发现语音识别系统的差异必须降低至少5%-10%的错误率。 更糟糕的是,消除错误几乎是不可能的。即使是人在处理相同类型的交流的时候也会犯错误。以手写输入识别作例子,即使是最专家的手写识别系统(人)可能达到54%之低的识别率。人类的识别成功率在连体是上升到88%,在打印体上升到96.8%,但是这依然不是完美的。这些证据表明电脑手写识别是不可能完美的。的确,基于电脑的识别是比人更容易发生错误。它们通常所使用的数据是比人类所觉察到的要少,它们的处理能力比较差。而且许多因素比如说疲劳会导致用户数据与训练数据有较大差异,一段时间以后会导致识别的成功率有所下降。 另一方面,识别的成功率并不是用户满意的唯一决定因素。错误恢复的对话复杂程度和给定错误的附加价值都会影响用户的满意程度。例如,Frankish et al发现用户在输入日志条目时出错比输入某个形式的命令时出错更灰心。这表明在命令中输入一个单词的回报比 在日志条目段落中输入一个单词的努力大的多。 出错处理并不是一个新问题,实际是这是与要设计一个尝试模仿人的计算机系统同时存在的。识别技术错误处理的研究必须假定错误肯定会发生,问题是寻找一个最好的处理错误的方法。和多对基于识别的接口的错误处理领域的研究浮现出来: - 减少错误: 这项研究包括改进识别技术以消除或减少错误。这是一个广泛研究的焦点,很容易成为论文的主题。证据表明这是一个理想,消除错误时不可能实现的。 - 发现错误: 在系统和用户没有对相关的错误进行动作的时候之前,他们中间的一个已经知道错误发生了。系统可能是通过用户输入被告知错误的发生,系统通过把识别了的输入不确定的解释有效地输出从而帮助用户查找错误。三种技术被用于这种自动错误发现阈值、历史统计、外在的规则说明。 - 错误纠正的可复用的基础: 工具箱提供可复用的组件,这对于一类共同相似的错误发生时特别有用。错误处理的接口极大的获益于提出基于识别输入错误处理技术库的工具包。这样的工具包当某些原始输入产生不同的解释时,能够解决这种固有的不明确性。一个原型的工具包已经被Mankoff et al提出用来支持可复用的错误恢复技术,但是仍然存在很多问题。 3.上下文感知的计算 早期两个引人瞩目的普适计算的范例是Olivetti实验室的Active Badge和Xerox PARCTab,都是位置感知的系统。这些设施提供了简单的上下文(用户的位置)以及有价值的服务(自动更新用户位置办公室地图)。然而计算设备和物理世界之间的联系不是新的(控制系统和自动导航卫星以及导弹是例子)。这些简单的位置感知应用可能是第一个将人类活动和计算设备相联系以服务于改进人类活动的范例。 位置是应用开发中通用的上下文,最广泛应用的是基于GPS的汽车导航系统和手持导航系统,这些设备随时变化内容并把用户的物理位置展现出来。另一个重要的上下文是识别单独的对象。早期系统注重识别标示标签和条形码,而最近的研究工作包含基于视觉的识别。Fitzmaurice示范了利用手持设备透视墙和机器。Rekimoto和NaviCam在一个手持视频显示设备上识别包含了对象附加信息颜色条形码。最近的工作是尝试视觉对象识别策略从而对象不需要各自标识。 虽然已经有大量的系统采用人物标识、位置感知,但是这些系统依然是难以实现的。Salber et al创作了上下文工具包使得上下文感知系统的设计、实现和发展简单化。这项工作强调上下文的获取、存储与上下文信息的不同的应用严格分离。这样的分离使得上下文感知的应用的创建变得简单。 很多情况下,我们只是用尚在实验的例子来简单地描述上下文感知的计算。这里我们要讨论上下文信息的结合、上下文的表示、上下文的获取、上下文的融合,并把上下文与自然交互的融合来实现改进的事实表示。 3.1什么是上下文? 上下文并不只是前面所提到的位置、标识。大多数上下文感知的系统都没有涉及到时间、历史信息、除了用户以外的其他人等环境中其它可用的信息。虽然目前仍然没有明确的上下文的定义了,但是五个W是上下文中不可缺少的部分: - 人物(Who): 当前的系统是针对某一个特定的用户标识,很少把环境中其他人的标识混在一起。我们通常根据在场的其他人来决定我们的行为、回忆往事。 - 事情(What): 当前系统中的交互都要假定用户在干什么。觉察和理解用户在作什么是一件困难的事情。然而,与上下文驱动的设备交互就必须能解释用户的行为从而提供有意义的信息。 - 位置(Where): 很多情况下,上下文中的位置比其它方面被探究得更多。位置总是和上下文中的其它信息联系在一起,比如时间。有的导航系统能够通过学习历史中的位置的移动,根据用户的习惯来把用户所需的信息显示出来。针对这个理论仍然需要更多的研究。 - 时间(When): 除了使用时间作为记录索引或计算用户在特定地点所待的时间,大多数上下文驱动的应用中对时间是不察觉的。但是引人注意的是时间相关的变化可以作为解释人的一种辅助。例如,对展览的短暂参观暗示了缺乏相关兴趣。此外,当行为的准线建立起来以后,违背准线的行为也受到注意。例如,当老人违背每天早晨的习惯时上下文感知的房屋能够觉察到。 - 原因(Why): 比一个人在作什么更难以理解的是他为什么在做这件事。通过觉察其它的上下文信息可以暗示出人的情感状态,如体温、心率和皮肤电反应等。 3.2上下文的表示 与上下文的定义相关的是上下文的表示。如果上下文不能很好的表示,应用开发者只能去转而开发对上下文信息的存储和操纵。复杂的上下文表示的不断进化使得更多的功能成为可能,并且做到了上下文的获取与对可编程的上下文应用相隔离。 3.3无处不在的上下文上下文融合(Context Fusion) 上下文感知的计算的一个明显的难题是使得真正做到计算的普遍存在。在特定的位置,上下文信息是可用的。但是,很少有真正做到普遍存在的单源的上下文服务。位置是一个很好的例子,GPS在屋内不能工作,在城市的某些区域也是不可信的。还有很多和户内限制类似的限制,如成本、范围、间隔和标签等限制,所以很少有一个解决方法可以解决所有的问题。 获得连续的上下文的解决方法是联合相关的上下文服务从而聚集上下文信息。这种上下文的融合类似于已经被很好的研究的相关传感器的融合。上下文的融合要处理不同上下文服务边界之间的无缝的融合。当同样的上下文被多个服务并发地提供时要能够从竞争的服务中决定出有用的信息。虽然有了传感器的融合,上下文的融合仍然是必要的,因为传感器的融合技术不是100%可靠的。从多个源的信息相结合能够提高解释的可信度。并行的服务相结合能够使得上下文融合帮助提供可信赖的普适计算上下文,例如消除噪音、提供更广的覆盖范围。 3.4 Coupling Context-Aware and Natural InteractionAugmented Reality 很多上下文感知的系统的目标是使得用户能够在现实动作基础上实时地获取信息。导航系统是一个很好的例子,用户在展览中的行动触发了附加的上下文敏感的信息的显示。这些应用通常使用分散的可移动的设备,这就要求它们把注意力从现实世界的不相关部分转移开来。这种交互的最好的比喻是用户用类似于电子探测器和计量器的工具探测世界。 和声音手势等自然输入方式一样,运用视觉和听觉我们可以把上下文感知的交互和现实世界更好的联系在一起。在这些交互中,系统改进用户感知世界的方法,这种信息的获取应当在更自然、无缝的交互中获得。 4.AUTOMATED CAPTURE AND ACCESS TO LIVE EXPERIENCE 我们生活中的很多时间都花在听和记录我们身边发生的事情,然后记住这些信息中重要的部分。利用计算资源来提高人类记录的效率是有很明显的价值,同时也存在问题。特别是当由多重相关的信息同时发生但是又无法一起捕获。能够帮助自动捕捉和访问生活经验的工具能够帮助人们去掉不擅长的包袱(如记录)这样他们能够集中精力关注他们擅长的活动(如隐含的关系、总结、翻译)。 关于这种捕获/访问理论已经有很多相关的研究,特别是在会议室/教室环境中和笔记记录。早期Schmandt、Arons和Hindus的工作已经能够在电话交谈中捕获声音信息并提供了对已经记录的声音信息提供访问。PhoneSlave系统和Xcapture系统把声音作为没有被翻译的数据并成功地提供了对这种对话信息的概括。最近很多研究集中在其它类型的输入上,比如数字墨水。Tivoli系统用一套软件提供了会议记录的功能,类似于某些电子白板技术(LiveBoard系统),从而来支持小组讨论。在会议中电子白板的记录是附有时间戳的,这些时序信息在会议结束以后被用来作为音频和视频的索引,从而提供更为详尽的会议记录。为大学讲课设计的Classroom 2000系统中提供了对数字墨水注释和音频视频记录相结合的功能。最大的亮点在于把捕获的材料自动加工成为能够被广大学生访问的接口。其它的捕获系统(Authoring on fly、Cornell的Lecture Browser)关注了任意程序交互信息的捕获和多个源信息中符合产品之质量的视频捕获。 上述的这些系统关注的是捕获公共的、集体的经验,也有一些其它的捕获系统(Marquee、Audio Notebook等)捕获单独的信息。Stupad是第一个提供公共信息与个人信息共同捕获的系统。 上述的努力提供了回顾经验捕获的一些多媒体接口。在后期的制作阶段,一些体统提供了多镜头的剪辑、多种信息表示的整合和基于内容的恢复机制来帮助在庞大的捕获的信息的知识库中的查询。后期制作的结果可以通过多种接口被访问,典型的就是通过在网络的分布。Abowd提供了对这些研究系统和商业系统的回顾。 在这些例子中,单独的捕获与访问中的普适计算的重点是可以清楚地被看到。传统的捕获设备如键盘逐渐转向更贴近用户的输入方式,如基于输入笔的接口或者现实的笔和纸。声音和手势形式的输入既可以被作为原始数据被接受、也可以解释成为更容易被理解的经验被接受。 4.1 捕获和访问中存在的挑战 虽然自动捕获系统取得很多有价值的研究和进步,但是依然存在很多问题,我们把它们在这里归纳在这里。我们把与捕获相关的问题和与访问相关的问题相分开。 4.1.1 捕获 我在前面已经提到过很好应用普适计算的技术的重要性。在捕获领域,引人注目的应用是在教育和培训。特别的来说,Classroom 2000从学生的观点中捕获信息。在探究捕获方面还有很多研究的领域。 -很多人都能记录我们生活中的特殊的事情(假期、生日聚会、亲戚朋友的来访等)。多少年之后,我们要花很多时间来通过日记和胶卷来回忆往事。我们希望多少次在生活中非常珍贵的时候我们只是去摸索记录设备而错过珍贵的一刻?查找特定事件的照片是多么困难的事情? -在很多合作设计的活动中关键的决定很多是在不正式的框架下做出的,并没有被很好地记录。技术的改变通常实在一次机会中比较随意的生成的。即使是在正式的设计会议中,大量的信息交互和讨论并没有被很好的捕获。我们开始尝试对非正式的集体讨论活动和正式的构思会议都提供支持的信息捕获。 -如果我们记录的是建筑的过程,相对于建筑的图纸,更能够对建筑队维护提供帮助。当需要修建的时候,建筑师可以重放这个记录和相关的维护历史记录来决定正确的维护。 除了Audio Notebook、Notepals、和Lecture Browser系统外,很少有对现实世界的信息捕获并且这些信息被加工成易于访问的系统。随着低成本捕获硬件的出现,如CrossPad和mimio,这一领域的研究必然将迅速发展。 当前的捕获研究中大多是捕获的以直接回放为目的的原始数据流的捕获,而并没有对这些数据进行深入的分析。但是,从简单的原始数据中获取额外的信息对理解生活中的事件更有意义。例如Stifeman通过对捕获的演讲音频进行分段分析可以知道什么时候新的主题开始了。类似的,Chiu和Wilcox提出了利用分段技术通过对停顿的检测来把数字墨水和音频联系起来。还有很多计算技术可以用来分析简单的音频、视频、墨水信息。 信息分析的另外一个应用是改善原始信息的记录。我们怎么才能够把多个镜头的数据整合成单一的、连贯的、高品质的可供以后查看的视频?单个固定的镜头不足以捕获生活的关键画面。但是像部署Classroom 2000这样的系统时我们不能在每个教室中布置技师。所以最大的挑战在于我们如何来决定一个组,乃至所有人的意图。 4.1.2 访问。 访问阶段,我们需要提供很多重放功能。最简单的重放就是实时的重放,有点时候这种重放是不足以满足要求的甚至是不恰当的。比如为了考试温习功课,学生并不需要像上课一样重新看整个课程重放。他只是想查看讨论中特定的主题并重放这一部分内容。也可能有时候突出重点的对整个捕获信息的概括是恰当的。 多个捕获的信息流在重放中的同步是重要的。商业的流操纵产品,如RealNetworks和MediaPlayer提出了强大的利用程序控制媒体流同步的标准。但是这些产品没有提供对流信息预示,这种预示可以使得用户在回顾时能看到即将发生什么。提供这种预示的系统可以使得用户舍去无关的内容而直接到感兴趣的地方。 很多系统中,捕获的材料直接用于访问使用。当然,有些情况下,修改过的数据可能是更为恰当的。虽然翻译对计算机科学家来说并不是一个新问题,但是要对捕获的材料的不同含义的译文提供访问接口还是存在很多问题,特别是像音频、视频这些已经基于时序的信息。时间线是操纵和浏览捕获信息的一个有效的接口。但是当捕获的信息被分割成很大不连续的时间段的时候,时间线的作用至少是要被置疑的。新的基于时间的接口技术,如LifeStreams、Timewarp和Time-machine computing是很好的开始。 最后,也可能是最有挑战的,当这些系统由私人的系统变成在公众的场合捕获事件的时候,对信息的捕获以及以后的访问中隐私的关注与日俱增。虽然这些问题应当在单个系统具体设计中加以考虑,但我们仍然需要通用的技术对捕获的材料附加标签以及访问权限的鉴别。本文的后面还将继续讨论这个问题。 + 5. TOWARD EVERYDAY COMPUTING 前面,我们描述了一个交互研究的领域,日常计算,这是基于时间来评估普适计算的结果。把计算由传统的桌面计算的基础脱离出来改变了人与电脑之间的关系,提供了持续的交互使得计算由局部变为连续的。日常计算的动机来源于对日常生活中很多非正式的、非结构化的活动的支持。这些活动在时间上是连续的,没有明显的起点和终点的。熟悉的例子由组织任务、和家人朋友的交流、信息的管理等。 日常计算的设计需要这些非正式的日常行为的表示: - 它们通常没有显著的起点和终点: 无论是一个基本的活动,如交流,或者是一个长期的工作,如人与电脑交互的研究,这些活动都没有起点、终点。过去的信息经常会重复循环。虽然地址簿上可能有新名字的增加或者要做的事件列表中有新的条目增加,但是交流活动或者信息管理活动中基本的活动没有改变。人机交互中基本的原则是对中止的设计。给定一个目标,比如文档中的拼写检查,为达到目标的每一个步骤应当被组织好了,同时还要考虑到合理限度的短期内的记忆。所有的对话应当是受限的,这样用户在完成这个目标以后才能进行下一个动作。此外当设计这样的一种活动的时候,例如提供当前状态的可见性,自由的对话以及特征的简单性扮演着重要的角色。 - 中断是需要的: 把这些活动看作是时间上连续的(可能它们是后台操作的)是非常有用的。一个副作用是行为的恢复不是从一贯的点开始,而是取决于中断以前的状态。交互应当被模拟成一系列的步骤,在某些点上,交互可以被恢复。接口除了表示过去的交互,还可以提醒用户尚未完成的行为。 - 多种行为的并发操作: 因为这些行为是连续的,多种行为之间的上下文切换是需要的。应用的接口允许用户去监控后台的行为,这样帮助用户知道什么时候应当恢复这个行为。这种恢复不是固定的,取决于其它人的有效性、最近到达的需要的信息。例如,用户想要恢复取决于最近发生相关事件数目的行为,比如在一定数目的消息发出以后才能在消息组阅读消息。在设计后台敏感的时候,接口需要支持在传递监控信息(把发生的事件与事件的重要性相联系的信息)时候的不同级别的干扰。当前的桌面接口只提供了用多窗口表示这个问题的开始。随着最低限度的屏幕的出现,用户必须管理一类问题的多个窗口的开、关、重叠等。简单的感知暗示在有点桌面图标中包括了,比如暗示收到了一封邮件,但是很少有控制来建立满足不同感知需求的通知。Rooms的接口为空间组织的文档和多个不变地点分布的应用提供接口。对它有用的扩展是提供背景room的感知以及当用户回到房间时帮助用户回忆过去发生的事情。 - 时间是重要的鉴别器: 时间是基本的人类评估的工具,虽然在计算机接口中很少被表示出来。在解释某个人的来电时,上次通话的时间是一个星期还是五分钟前,这样的因素是相关的。在桌子上找一张纸的时候,昨天看到过还是上个月看到的也是可以帮助查找的。有很多办法来把时间和计算机接口联系起来。如果我们想重新回到我们工作的进展中,接口可以表示出从上次交互以后发生的时间。作为解释现实世界事件的应用,例如决定怎么处理来电、到达当地百货商店的反应,它们可以利用时间信息来决定它们的反应。 - 信息的联合模型是需要的: 信息的层次模型很好地对应于定义良好的任务。但是,行为信息的模型重要是联合的,因为信息经常在不同的场合从不同的角度重复使用。例如,你保存很长时间同事、朋友、家人发到邮件。当处理现在的邮件的时候,你就想把它归类到不同主题的分级的文件夹中。一段时间以后,这种组织方法就要改变,因为这样不能按照变动的要求查找邮件。类似的,要做的事件的列表在把这些事件组织在一个定义好的列表中是也会失败。信息的联合的、多内容的模型允许用户从不同的角度、因为不同的原因重新获得信息。例如,用户想根据当前上下文,例如某人什么时候进入办公室、什么时候某人到底百货商店,来重新获得信息。他们还可以回忆和当前信息相关的其它信息。例如几个星期前修改的文档、类似主题在四周流传的文档。 随着计算变得更加的普遍存在,提供的工具折射出它在长期活动中的角色。虽然普适计算的原理也可以应用到桌面接口中来,但这些设计的挑战都是和不断改变的环境相关的。在移动的场景中,用户在可用计算资源不断变化的活动中切换。即使在办公室框架中,不同的工具和对象在不同的活动中扮演多重角色。例如,改进的电子白板的使用根据不断变化的上下文信息(如出席人数等)变换。不同的对象(如文件、外界的显示)为活动提供切入点和背景信息。现实世界的交互的分布是日常计算的观点中固有的,这也是和普适计算的研究高度相关的。 5.1 Synergy Among Themes 日常计算的研究仍然在探究前面所提到的交互中的三个领域,但是研究的重点在于设计连续可用的环境。Eshii的研究工作利用自然的接口来支持通信和背景的感知。现在的Roomware项目的工作目标是创建一个墙面大小的交互区域来支持更多范围的非正式的人的活动。 考虑到上下文感知的交互,Audio Aura系统和前面提到的导航系统是相关的,改变了位置触发的信息在便携设备之间的传输。Audio Aura的目的是提高用户的听觉范围。通过增加关于同事的行为和通信方式(如电子邮件等)的动态信息,Audio Aura提高了用户进行日常活动时的可用信息的可觉察范围。 类似的,自动捕获和访问应用也转向非结构化的环境。Remembrance Agent找寻包括视觉感知基于环境上下文在内的信息。用户可以指示系统要记忆的内容,系统成为了持续可用的物理位置索引的日常信息的仓库。作为未完成的目标,Bush建议设计一个记录持续的日常信息并在以后作为总结和归纳用的个人记忆容器。 5.2 日常计算的研究方向 日常计算给人机交互研究带来很多的挑战。在现在和未来的工作中,我们关注以下几点: -设计连续的计算机接口表示:有很多描述普适的计算机的模型,但是没有一个模型是完全令人满意的。信息用具通常指的是不知道当前的行为的在后台工作的有特定目的的设备。这些接口通常借用传统的图形用户界面的概念。在后台连续工作的计算系统从过去的行为和行为时机中学习,表现为赋予了人性的代理。并不一定每个接口都是基于富于表情的或者面向人类特性的对话。在可穿戴的计算机的研究中,由于现在的输入和输出设备的限制,通常采用的是基本的基于文本的接口。 -用户注意力的不同层次的外围信息的表示:尽管在有形媒体和外围的感知,特别是计算机支持的协作以及可穿戴的计算领域的关注在增加,但是当前的接口通常表示一般的外围的背景而没有用户机制来把外围的信息转化为不同的注意层次。我们当前的设计的目标是创建外围的信息接口在不同的层次上对用户的外围信息进行操作。 -现实世界与虚拟世界的事件联系:用户在两个不相连接的空间操作:电子邮件、电子文档、网页等虚拟世界和面对面的交流、书脊、文件等现实世界。用户的行为在这两个世界交互。尽管很早就有如数字桌面之类的研究,但是还有很多工作要做来解决两个空间的信息整合从而达到更好的理解用户如何构思他们的动作。 -修改传统的人机交互的方法来支持非正式的、外围的和随机的动作:没有一个用来理解计算机在人们日常生活中的地位的方法。但是,从像实验和人种调查这样的复杂方法中得到混合信息是一件不容易的事。在我们的研究和classroom项目中我们通过实践来学习,通过不同的策略评估我们得到的结果。我们有意识地选择和我们提出的问题相匹配的解决方法。学习不同方法之间如何互相通知以及不同方法的结果如何混合还是贯穿我们工作中的努力。在后面的章节中我们继续讨论如何评估普适计算系统。 6. 普适计算的附加挑战 普适计算的两个重要的方面是系统的评估和社会效应,这两个方面贯穿普适计算研究的所有领域。 6.1 普适计算的评估 为了了解普适计算在日常生活中的作用,我们必须在技术怎样用来服务于人的需求和技术可信的使用以及人类活动和技术共同发展之间保持平衡。如何格式化的评估普适计算系统由于很多原因是一件很复杂的事情。由于这样的困难使得我们很少看到对普适计算系统评估以及最终用户的需求分析。有一个例外是XeroxPARC的研究者发布的关于应用在会议上下文的Tivoli系统。普适计算的研究者力求在满足用户需求的基础上尽可能减少对人机交互方式的冲击,在这里我们给出对这种挑战的建议: 6.1.1 找出用户的需求 。评估一个普适计算系统的主要的困难是并没有一个可靠的系统用来被评估。用来建立普适计算系统的技术一般都是边缘技术并没有被开发者很好的理解,所以很难建立一个可靠的鲁棒的系统来支持连续的日常活动。已经发布的普适计算的工作主要还是停留在这种鲁棒性不高的示范原型系统的基础上。这种工作通常是以技术为中心的,但是我们在下面要介绍,利用这些新型的技术也是可以进行用户为中心的可行性研究。 研究者从最终用户的角度创建一个引人瞩目的应用,说明建立的系统和基础设施如何投入到使用中。技术必须要来满足一个现实的或潜在的需求,因为根据Weiser说的,普适计算的目的是为提供一个为用户服务的应用。一个引人瞩目的应用并不是简单的提供一个研究结果的示例,它应当是为评估系统对未来用户日常生活的影响提供基础。最好的情形是在连续的基础上建立一个围绕暴露给你的行为的应用。这样你可以建立一个逼真的实验室,可以持续地激励你支持支持这样的应用并为了更好地理解应用提供反馈。 系统的设计者并不是完人,所以错误总是会发生的。因为建立一个鲁棒性的普适计算的系统是一件困难的事情,所以你不需要花费建立一个复杂系统的造价仅仅发现系统与设计应用时候的目标相差甚远。你应当在为了更好地评估而花费精力建立一个鲁棒性的系统之前作一部分边缘应用的可行性研究。但是,这些可行性的评估也应当是由非格式化地、用户为中心的观点驱动的,目标是确定系统是如何被使用、什么样的行为是系统所包含的、整个系统的反应是积极的还是消极的。回答这些问题对未来的系统设计和系统评估提供参考。在对系统地作用进行定量的评估前理解新的系统如何被它的潜在用户使用是很重要的。 案例研究: Xerox PARC的Flatland系统。普适计算应用系统的设计要求设计者对未来用户如何使用这种新的技术有足够的理解。设计一个通用的交互方式并不是人机交互研究中的新问题,但是这个问题在普适计算系统部署到物理世界的时候显得尤其困难。 在我们的Flatland系统的设计中,我们对办公室中的白板的使用进行了使用人类习惯观察,并做了问卷调查和采访,通过各种方法了解用户在日常生活中如何使用白板。从观察中得到的大量的数据既是我们设计中的灵感,也是有用的约束。例如,焦点场所,根据日常白板使用的观察得到的用户经常修改的白板区域。观察的数据是问卷调查和采访等深层次的用户习惯研究的基础。没有这些数据在讨论中可能会简单地忽略了用户对使用的想法。通过参考两个星期的观察数据,我们可以检查系统设计的细节实现。 虽然我们的改进的电子白板还没有到应用的水平,甚至还不能被用于用户测试,但是通过观察和采访我们收集了大量对我们设计有用的信息。 案例研究: Audio Aura系统。当新颖的输入输出技术刚开始被介绍的时候,它们的功能和效用并没有被很好的了解。通常这些技术并没有被真正被应用到实际的系统中去。然而以用户为中心地评估需要影响到后继的设计。在Audio Aura系统的设计中,我们探究了如何通过应用外部的声音来提高对办公室行为的感知能力。我们使用的无线耳机、声音设备对长期使用的用户显得很笨重。因为较大的、黑色的耳机遮住了耳朵,所以在公众场合是被禁止的。用来控制声音表示的Java语言对创建丰富的语音空间是不足的。然而,我相信在将来这些技术上的不足在将来都是会被解决的。 基于对Xerox PARC工作环境的调查,我们研究了交互的方式来指导我们的系统设计和评估。我们汇集了在PARC人们是怎样集体工作的的信息,例如在咖啡馆聚集、即兴到同事办公室谈话、甚至在走廊里和同事切磋。当我们的系统真正部署使用的时候,用户会思考他们的日常行为。调查还帮助我们理解了另外一个交互的要素:时间。在一个我们的案例中,在两个技术组件之间的交流方式不能满足交互的速度要求。虽然速度可以加快,但是这种修改要求平衡速度和系统的规模,两者对于系统的目标都是很重要的。简短的说,调查帮助我们理解未来开发的设计空间。 6.1.2 Evaluating in the Context of Authentic Use。 深层次的评估要求系统的现实的使用以及系统可靠的设置。评估系统的各个因素(设备、地点、人、时间)作为系统的特征可以用来传统的约束的效用实验。在高效的评估中,我们要观察用户和系统的日常的交互,这要求系统在环境中现实的部署。 案例研究: Classroom 2000系统。在这个案例研究中,我们示例了从前面的原型和可行性研究中演变来的更成熟的系统,这个系统现在正在被现实的教学中使用。这个系统是在1995年7月开始的,它的目的在捕获尽可能多的课堂信息,以便于课后老师和学习的复习。在很多课堂中,学生都是低着头把听到的和看到的记录下来以便日后的复习。虽然记笔记的过程对学生的学习过程有帮助,但是根据老师和学生的观点我们给学生机会能够在课堂上抬起头来融入到课堂中去。这样的捕获系统释放了同学记笔记的负担。 我们需要建议这个假设的可行性,所以在系统六个月的使用中,我们提供整个课堂的捕获环境,观察假设是否能够被很好的测试。在这样一个实验中我们获得很多的有价值的信息。初始的实验中包括了笔记功能,明显对学生分心,所以我们放弃实验的这部分功能。在最近几个月中,当技术成熟了以后这样的功能才重新被启用。从这个实验中我们知道了要了解这个系统对课堂教学和学习的影响,我们必须从大量的课堂实践中获取数据。这要求付出大量的努力来部署可靠的鲁棒的支持多课堂模拟的系统。如今,经过30位不同的老师超过100门课的使用后,我们获取了系统如何被使用、未来如何改进等信息。作为评估系统的直接的结果,系统使得60%的使用者改变了记笔记的习惯。我们同样了解到并不是所有的这样的改变都是变的更好的。例如不记笔记并不是一个好的学习的实践。我们可以通过重新向用户介绍笔记功能单元,告诉他们可以个性化笔记这样可以使得用户更好地使用笔记实践功能。我们同时还认识到还应当简化课程信息的基于内容的回放功能。这些认识激励了以后的研究努力并可以建立一个长期的研究项目。 6.1.3 任务为中心地评估策略是不恰当的。 假设系统已经被可信地部署,那么用户是否对系统提供的服务满意?用户是否养成了使用系统的习惯?这就牵涉到如何定性或定量地评估系统的问题。多数的效用评估是任务为中心的。如果用户的任务是明确的,那么可以通过决定系统的适合程度和完成任务的接口来评估系统。然而在不规律日常计算的情况下很难用任务为中心的评估方法来评估。 6.2 普适计算的社会效应 我们努力尝试使得对现实世界的现象的感知、理解、反应更简单并记录这些现象。这些技术同时也带来很多的危险,例如,过于容易的在没有控制的情形下跟踪一个人。如果普适计算的研究者不能理解这些缺点,那么他们就是失职的。但是不能因为对可能带来的错误的恐惧停止所有的工作,只不过继续改进技术、设计来解决这些社会负面效应。 对所有储存在计算机中的信息来说最基本的关注是谁有权利来访问及修改这些数据。数据存放在哪里?他们是否安全?安全和加密机制也是可行的解决方案之一,特别是数据从环境中采集并在网络中传输的过程。类似的,可穿戴计算也强调设计的策略把数据保留在身边而不是把它通过网络传输。 用户恐惧的是缺乏对系统能作什么的了解以及背后系统还做了什么。虽然普适计算的原始观点是把普适计算无形地融入到现实环境中去,但是这种无形与用户要知道如何被感知相矛盾。要缓和这种矛盾就要求系统在部署的时候让用户知道信息是如何被感知的。例如感知现实现象和记录现实情景的系统应当明显地提醒用户这些行为正在发生。当这些感知和记录功能越来越普遍的使用,普适计算的挑战之一就是如何让用户知道他们是如何被感知的。我们需要把从现实空间的视觉转变到对虚拟空间的视觉。 接下来的步骤是让这些感知和记录变成受控的,可以停止这种活动至少可以控制信息的分布和使用。这种挑战涉及到协作环境的设计,在这种环境中行为和角色都是不断变化的所以很难清晰的描述。信息的捕获、分布、使用根据不同的设置而决定。 关于什么时候捕获什么样的信息不同的系统建立者有不同的反应。在Xerox PARC,关于捕获达成一个共识就是捕获会议中总结性的部分。在Classroom 2000系统中,我们记录所有一节课的信息而不注重捕获每个人的高品质的音频视频信息,除了讲台上老师的信息。在FX-PAL的Dynomite系统中,笔记控制哪个部分的音频信息用于以后的参考。最后一种方法可以看作对于高品质的音频信息中减少存储量的方法,从另外的角度看,完美的捕获系统应当能够合理地忘记一部分以前的信息。协作情景下一个重要的问题是提供一个策略来擦除或忘记共享存储中的部分内容。关于这个观点的一个更积极的倾向是在忘记部分捕获历史的情形下提高对捕获信息有价值部分的感知。 虽然从人类的交流诞生开始关于信息的恰当使用和传播就被关注,由于普适计算使得信息的获取更为简单使得这一点更受关注。电脑可以更为简单地跟踪人类的活动,而以前这样的跟踪需要人类付出大量的努力。为了表示上述提到的安全性、可视性和信息控制,我们的策略是建立对信息恰当的、有使用权的应用示例。非实时的多粒度的图像是在不违背个人隐私的前提下满足感知和连续的要求。在Audio Aura系统的设计中,我们非常注重关于同事活动的定性信息的传播。 此外还有很多与隐私并不直接相连的其他社会效应。例如对会议、课堂进行记录对那些参与者有积极和消极双重影响。积极的方面,知识的记录减轻他们的笔记负担。消极的方面,参与者害怕说了什么以后遗憾的话语而拒绝参与讨论。在我们的Classroom2000的实验中还注意到另外一个很微妙的问题。有的学生选择不回答问题,因为等到结束的时候他们还可以回放课程的记录。 总的来说,技术和设计的改进的同时伴随着社会和法律的变革。人们在享受普适计算带来好处的同时会比较花费的代价。例如,滑雪者和徒步旅行的人会选择身穿无线传输的衣服方便救援人员的定位。救火队员从相互了解对方在哪里做什么中获益。在人们研究出新的、无法预料的这些技术的应用的时候在前面讨论的这些技术的社会关注还会继续。然而,对安全、可视性、控制性、隐私的关注能够帮助我们积极的使用这些技术。 7.结束语 本文尝试总结从普适计算开始研究的十年来的研究的历程。我们提出了普适计算研究的三个主要领域,提供了关于这些领域研究的背景知识,指出了这些领域研究的已经达到的成就和还存在的挑战。我们的目的是激励普适计算的研究者去解决这些重要的问题。我们肯定遗漏了一些重要的问题,我们期望其他同仁提出并解决这些问题。 Weiser指出普适计算的关键是建立推动设备和基础设施发展的令人瞩目的应用。我们同意这种精神的同时提出普适计算与计算资源交互的效用的更广的观点。在人机交互的研究中,任务为中心的研究是很重要的。然而,我们回首那些成功的计算技术,并不是单个应用推动关键技术的接受和发展。个人电脑的关键应用是哪个?那是针对于不同的人的很多不同的应用。普适计算的真实目标是联合很多应用从而达到人与计算机之间连续的无缝的连接。我们完成某项任务并不是单个的交互接口,交互应当是自由而综合的,类似于现实世界的与人和日常生活中的种种对象的交互。 (李彬编译)
个人分类: 学术动向|10070 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 14:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部