科学网

 找回密码
  注册

tag 标签: 人机交互

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]机器学习新动向:从人机交互中学习
timy 2012-9-16 20:57
转载于: http://blog.sina.com.cn/s/blog_7ad48fee01016d25.html 在《机器学习正在改变我们的工作与生活》一文中,分析了为什么机器学习会成为计算机系统智能化的最有力手段。在《统计学习方法》一书中,介绍了机器学习的 最常用、最基本的方法。本文综观机器学习研究的一个新动向:从人机交互中获取数据,学习构建模型。首先讨论机器学习到底需要多少训练数据;然后介绍通过人 机交互获取训练数据的方法,包括日志数据挖掘、众包、人机协同计算;最后通过实例介绍如何使用从人机交互中获得的数据进行机器学习。 1. 机器学习到底需要多少数据? 统计机器学习中的一个重要环节就是生成训练数据。我们必然产生一个疑问,到底准备多少训练数据才能让机器学习到一个足够精确的模型?统计机器学习理论中称之为样本复杂度(sample complexity)问题。这是一个难解的问题,虽然有许多研究,但只有部分结论。 下面介绍奥卡姆剃刀定理,它能给出二类分类学习中的样本复杂度的一个结果。其结论是二类分类学习的样本复杂度,即需要的样本数目,与学习的精度、学习的确 信度、以及模型的复杂度有关。学习精度越高,学习确信度越高,学习模型越复杂,所需要的样本也就越多。样本复杂度满足以下不等式 从这个不等式可以推断,即使学习一个简单的二类分类模型,所需的最小样本数也是相当大的。当然这个定理考虑的是最坏情况,实际需要的最小样本数会更小一些。经验上,要精确地学习一个模型,至少需要模型参数个数的数百倍的样本。所以,机器学习需要的训练样本量是非常大的。 通常训练数据的生成依靠专业人员标注。比如在人脸检测中,往往雇用大量专业人员对图片中出现的人脸进行标注。需要标注在不同光线、不同背景下,图片中不同年龄、种族、性别的人物的脸部,以便能够覆盖各种情况下的人脸检测。 如何收集大量的高质量的数据成为机器学习的一个巨大挑战。最近的一个新趋势是通过人机交互,包括日志数据挖掘、众包、人机协同计算,获取大量高质量训练数据。 2. 日志数据挖掘、众包、人机协同计算 在计算机应用系统中记录用户的使用行为,将其用于系统性能提高是日志数据挖掘的基本想法。日志数据挖掘也可以用于机器学习的训练数据生成。比如,互联网搜 索引擎会记录用户查询的点击数据,包括用户提交的查询,系统返回的URL,以及用户点击的其中的URL。点击数据反映了上亿的用户对搜索结果的反馈,对提 高搜索引擎的相关排序是非常有用的。如果系统本身是基于机器学习的话,那么这些廉价的点击数据就可以用于机器学习的训练。用户在提供数据的过程中不需花费 多余的代价,只需要自然地使用应用系统即可。不过,用户行为数据往往含有一定噪音,怎样去除噪音,提高训练数据的质量是需要考虑的问题。 众包(crowdsourcing)是另一种方式,Amazon Mechanical Turk是其代表。将数据标注作为任务,在网上市场上进行任务交易,实现数据的标注。数据收集者将标注任务的展示在市场上;市场中有大量注册会员,称为工 人,工人根据自己的能力、兴趣选择任务,进行数据标注,得到一定报酬(一般金额较低),有些工人将其作为获得收入的办法,也有一些工人将其作为娱乐、学 习、消磨时间的途径。标注工作对人来说通常是简单的,比如人脸检测,但是对机器来说往往是非常困难的。这样就可以通过大量人工标注数据很快地构建一个智能 系统。互联网将人们联系在一起,使众包成为可能。 还有一种方式是通过一些特别设计的游戏来获取数据。比如,ESP游戏中,给两个玩者同时展示一个图片,让他们各自独立地对图片进行标注;如果两人标注的标记一致,就都得分,如果不一致,就都不得分。两个玩者都有很强的动机将标注做得准确,而他们给出的标记必然是基于常识的,这就为图片的自动标注提供了高质量的训练数据。Google的图片搜索就采用了这样的方法进行图片标注。 还一个例子是ReCAPTCHA。用户在登录网站时通常需要输入验证码,很多网站采用了ReCAPTCHA系统产生验证码。验证码分两段;一段有正确答 案,用于鉴别登录是来自真人还是机器人,另一段没有正确答案,用于OCR训练数据的收集;但用户不知道哪一段是真正用于验证的。用户的输入变成训练数据, 用于OCR学习,特别是困难问题的学习。ReCAPTCHA的数据用于图书的数字化,大量用户在网上对这项工程做出了贡献。 ESP游戏和ReCAPTCHA都是杰出的青年科学家Luis von Ahn提出的。von Ahn将这些方法进一步升华,提出了人机协同计算(Human Computation)概念。可以认为世界上两种计算机,一种是电子计算机,另一种就是人本身的“计算机”。两种计算机各有所长,可以互相取长补短,协同合作,完成任务。这就是人机协同计算的主要想法。 总之,有三种方式帮助收集数据,日志数据挖掘、众包、人机协同计算。日志数据挖掘中,用户无意识地提供了数据。众包和人机协同计算中,用户有意识地提供了数据,一个是得到经济上的报酬,另一个是得到其他的满足。 3. 有效利用人机交互数据 只要我们能够很好地设计数据获取的方法,以及机器学习的方法,并且将两者很好地结合起来,就能极大地提高机器学习的性能。这里举一个例子,是我以前在微软亚洲研究院与同事们做的一个工作,我们称之为匹配学习(learning to match)。 图片标注数据 学习到的图片与标记的相似度 假设有两个空间涵盖两种异质数据,例如,图片与标记,查询语句与网页。如果我们能够得到部分异质数据的匹配关系,就可以利用匹配学习的方法学到所有异质数 据的匹配关系,也就是异质数据的相似度。而这个学习任务中的训练数据可以从人机协同计算、日志数据挖掘中获取。事实上,只要能获得足够多的数据,就能学习 到很好的匹配模型。在互联网搜索中学到的查询与网页匹配的模型比经典的BM25、语言模型等有更好的性能。基于大规模数据的图片标注学习使计算机对图片的 “语义理解”变为可能。以上两图给出匹配学习用于图片标注时的示例。 4. 机遇与挑战 事实证明从人机交互中获取数据是提高机器学习的有效手段。日志数据挖掘、众包、人机协同计算的方式孕育着巨大的可能性、同时也带来众多的挑战。设计数据收集方法时,我们需要考虑,如何调动大众,如何处理大数据,如何保证数据的质量,如何用于具体应用;设计学习方法时,我们需要考虑,如何实施大规模机器学习,如何提高学习的准确性。人机交互中学习还有许多有趣的问题正在等待我们的解决。 5. 致谢 本文的撰写在与杨强教授等的讨论中得到了启发,介绍的工作是与武威博士、徐君博士等的合作成果。受刘江主编邀请在全国软件开发者大会上作了相同内容的大会报告。在此对他们表示衷心感谢。 参考文献 1.李航,《机器学习正在改变我们的工作与生活》,新浪博客,2011。 2.李航,《统计学习方法》,清华大学出版社,2012。 3. David McAllester, Occam's Razor Theorem, Lecture Notes. 4.Edith Law and Luis von Ahn, Human Computation, Morgan Claypool Publisher, 2011. 5.Wei Wu, Hang Li, and Jun Xu, Learning Query and Document Similarities from Click-through Bipartite Graph with Metadata, Microsoft Research Technical Report, MSR-TR-2011-126, 2011.
个人分类: 机器学习|3970 次阅读|0 个评论
[转载]大数据有大智慧-微软的几个人机交互与大数据计划
shawn360 2012-4-5 19:43
素有“计算机研究领域的盛宴”之称的微软技术节(TechFest 2012)在微软美国总部雷德蒙开幕。“融合虚拟与现实”(Blending Virtual and Physical)和“大数据有大智慧”(Profound Insights from Big Data)两大主题贯穿本届技术节,描绘了微软对未来计算的构想和愿景——自然用户界面(NUI)实现虚拟与现实世界的融合以及云计算与大数据结合的巨大潜力,共有155项来自微软研究院全球各机构的最新研究成果在为期三天的活动上亮相。 如今,人们已经在日常生活中体验到了以云和大数据为驱动的技术,这些看似无形的技术正潜移默化地改变着我们生活和工作的方式,赋予我们各种新的信息与服务、新的沟通与协作方式,以及无与伦比的便利。如何在大数据时代获得价值和知识,以及如何与数据进行交互是目前各领域科研人员以及普通消费者面临的重大挑战之一,这也是本届微软技术节的另一大主题。 微软研究院展示的技术将分析和可视化应用于基于云的大数据处理和分析中,对于发掘研究人员新的科研方式、加速科学发现,以及实现消费者与数据间更自然的交互都将产生重要的影响。 其中“Chronozoom”技术让用户以前所未有的便捷方式查看137亿年前至今的历史时间轴;基于Web的动态宇宙时间地图,浏览者可以从137亿年前一直穿梭到今天。点击放大任何一个时间点,可以看到相应的图片集和视频,例如可以观看历史学家David Christian 解释创世大爆炸。ChronoZoom形容自己是一个开源的社区项目,旨在可视化历史,在科学人文之间架起桥梁,从大历史的角度讲述故事,让人能更易于理解这些信息。 Chronozoom网址: http://www.chronozoomproject.org/ “FetchClimate!”是一种快速而智能的气候数据检索服务,允许用户检索任何年份跨度、一年内的某几天、甚至一天内的某几小时的气候信息;“Lifebrowser”通过机器学习和分析,从海量个人信息资料中推断“记忆地标”并建立时间轴。 FetchClimate网址: http://fetchclimate.cloudapp.net/ 更多内容详见: http://www.datatang.com/news/103
2812 次阅读|0 个评论
中国的“人机交互”事业该向哪里走?-我的几点思考
热度 2 cswzjut 2011-10-2 20:37
9月中下旬,有三个和“交互”相关的活动在北京举行。一个是“2011中国交互设计体验日”、一个是“第七届中国人机交互会议(CHCI2011)”,还有一个是ACM(美国计算机学会)举办的“Ubicomp2011”。 首先我先分别介绍一下这三个活动: “ 交互设计体验日 ”是广东省工业设计协会和UCD书友会组织的,这个活动今年是异军突起,共有800多人现场参加,以全国各大企业用户体验,交互设计等相关从业人员为主,针对企业具体实践中的问题进行交流与研讨,同时也请了一些高校老师进行交互设计教育方面的座谈。 “ CHCI2011 ”是一个学术会议,主要是国内高校和科研机构人员参加,现场到会200人(如果把同期联合举行的HHME包括进来),主要是宣读和交流人机交互技术、交互设计应用等方面的论文。 “ Ubicomp2011 ”是普适计算领域的国际顶级会议,到会约400人,大部分参会人员是美国、欧洲名校过来的,当然今年在清华召开,也有不少中国人的面孔。人机交互也是这个会议的主要部分,但技术方面涉及比较多些。 三个活动风格各异,但集中体现的是,中国的“人机交互”事业,不论是人机交互的科研与教育、交互设计的产业应用,还是与国际的交流,都处在一个大发展、大繁荣的黄金时期。“交互”事业也逐渐受到社会的关注,各界的支持,这不能不说是一件好事,也不能不让人欢欣鼓舞。但在深层次上,仍暴露着一些问题,有些还可以说是“硬伤”: 一、 产学研脱节 。往往是人机交互学术的活动,看不到企业的人;而企业的交互设计活动,看不到高校和研究机构的人。这个和国外是很不一样的,也许中国有中国的国请,但人机交互本身就是一个应用性很强的领域,很多理论、方法本身来源与产业界的需求,而最终的技术则在产品中,在市场中得到验证、应用和推广。所以,像CHI,Ubicomp等人机交互方面的国际会议,产业界始终是很活跃的,他们提供赞助、交流论文、做Keynote演讲、做产品演示、招募人才、组织参观等。这样的好处是把学术界最新的思想带回企业,同时,也把产业界的真实情况展示出来,推动和促进学术的发展。另一方面,这也反映出我们的高校,有些研究课题似乎与企业的实际需求相去甚远,或者和企业也很少交流,在闭门造车,所以不知道产业界的交流活动,或者不关心,或者因为不能发表论文,取得业绩,而敬而远之。我坚信只有学术界和产业界的相辅相成,才能相得益彰。 二、 “泡沫”已经出现 。“人机交互”、“交互设计”之类的名词越来越多的出现在科研项目申请书里,出现在学术论文中,出现在高校专业培养计划和课程设置中,同时也出现在各大企业的招聘计划中,以及相关的各类图书中。在一片欣欣向荣的景象背后,我们并没有看到高校里设立正规的“人机交互”专业,也没有看到一本本土的经典教材诞生,更鲜有看到企业里有iphone,ipad这样经典的人机交互产品横空出世。学术界的顶级会议,中国人还是做配角;老百姓口袋的银子,还是被乔老爷(默哀一下)这样的洋大人赚走最多。“泡沫”已经出现了,还能hold多久? 三、 教育是个大问题 。目前在中国(大陆)现有的教育体制下,现在声称自己是做人机交互,但又拿的出盖有“人机交互”、“交互设计”章子的科班文凭的人,恐怕不出50个。绝大多数人都是半路出家,从学计算机、学工业设计、学心理学转过来的应该大有人在,虽然这些学科都是人机交互的重要组成部分,但毕竟从一个专业毕业之后,再把另一个专业给自学成才,融会贯通,还是比较难的,对于学生来说更是如此。一个正儿八经在教育部专业目录上查得到的“人机交互”专业,哪怕是还在起步阶段,培养的学生也应该会有更扎实的基础,对人机交互专业也会有更深刻的理解。所以说,当前教育是个大问题,如果不成立正规的“人机交互”、“交互设计”专业,那么对于我们的学生来说,是很危险的,一方面,他们渴望获取人机交互,交互设计方面的知识和技能,渴望加入到这个行业中来;但另一方面,我们给他们的,要不是各种国外翻译过来,五花八门的“经典”教材,要不就是国人八仙过海,各显神通攒出来的交互秘籍,或者各种博客、讨论会中的各家之言。对一个学科没有从演变历史、理论体系、技术路线上进行全面的了解和把握,学生们就会疑惑,到底什么是人机交互,它从哪里来,将到哪里去?我应该学什么,怎么学?毕业以后我该做什么,怎么做?教育的问题不解决,泡沫破灭的会更快,而且会和国外的差距越来越大。值得庆幸的是,目前有一批老专家、中青年学者和高校教师在积极为人机交互专业的教育事业奔走、忙碌,上述三个活动的顺利举行也有他们的一份贡献。“星星之火,可以燎原”,光有“星星之火”还不行,更需要有“原”才可“燎”,所以需要更多的人,更多的组织,甚至全社会参与到人机交互的教育事业中来。 上面是我自己的几点思考,属一家之言,目的是希望更多的同行能关注一下,思考一下,一起把中国的“人机交互”事业真正给力的搞起来。 本文不针对任何具体的个人和单位,如有疏漏和偏颇之处,敬请谅解。
个人分类: 学术活动|5418 次阅读|3 个评论
人机和谐(110925)
热度 5 ymin 2011-9-25 09:16
人机和谐(110925) 闵应骅 许多人都在问:温州动车追尾事故到底主要应该由人负责,还是由机器负责?其实,人和机器的关系是一个很复杂的问题。 1950年代,我们提倡“人定胜天”,“除四害”打麻雀,“送瘟神”,赶走血吸虫病,结果都不佳。人与自然的关系应该是一种和谐的关系,而不是一种敌对的关系。用牺牲环境换取经济发展不可取。人机关系也一样。 人为什么要机器?因为人需要做的许多事情效率不高,甚至不可能,所以求助于机器。就拿列车控制来说,如果列车开的很慢,司机可以凭眼睛看前方就可以决定开动、加速、停车等,就不需要用机器来自动控制。但是,当列车开到60公里/小时以上,线路又复杂,气候又不好,就不得不借助机器进行自动控制。前面一个弯道、一个隧道,基本上看不见前方,瞎开就可能追尾,甚至翻车。在这个时候,你必须全心全意地依靠机器,相信它。特别是涉及安全的时候。如果它说要停车,你千万不能手动驾驶,让它全速前进。而在机器坏了,不可靠的情况下,人又必须起主导作用,控制你的列车。当然,在设计机器的时候,最后的决定权总是在人手里。这就是人机相互和谐的关系。 人有很多,有操纵机器的人,有管理操纵者的人,管理者还有各种级别。譬如,列车司机是操作机器的,车站调度员是管理者,而调度中心的值班员是更高一层的管理者,铁路局、铁道部就更不用说了。在这个人机系统中他们应该在什么位置?出了事故,他们应该负多大责任?这又需要人之间的和谐。如果各级指挥不一致,操纵者和机器就都不知所措了。所以,人机接口非常重要,让人与人之间、人与机器之间有很好的沟通。 30年前,人们开始估计机器的可靠性。就是说,人可以依靠机器到什么程度?譬如说,机器的平均可靠工作时间(MTTF)是多少,就是说,在此时段内,机器发生故障的可能性很小,人们可以信赖它。所以,系统可靠性的研究和工程就发展了起来。可是,接下来,越来越多的系统中包括了人。譬如一个列车自动驾驶系统就不光是包括机器,还包括驾驶员在内。载人航天系统也包括航天员在内,而且还包括航天员在航天器里面的动作、维修。自从有了网络,特别是物联网,如果把整个网络看作一个系统,那么全世界的人都包括在内。当人算作系统内的一个部件的时候,系统的可靠性就很难估计了。人与人不同,甚至,人可能变成一个最不可靠的因素。当然,机器与机器之间的协同与和谐也非常重要。这次动车事故中,车站联锁显示的是红光带,而调度中心显示的却是绿灯。这样的不一致必然造成系统的混乱。 多年来,人们致力于人工智能,即让机器有人的智能,现在连手机都有智能手机。我一直纳闷:让机器有智能的目的是什么?是希望机器帮助人类做一些人类不愿意做或者不能做的事情呢?还是让机器和人一样,屹立于世界?这好像变成了一个哲学问题。 不管怎么样,人机交互、人机和谐是信息科学领域一个重要问题,也是一个重要的工程问题。
个人分类: 杂谈|4077 次阅读|14 个评论
第7届全国人机交互学术会议(CHCI 2011)征文
cswzjut 2011-3-10 16:33
第7届全国人机交互学术会议(CHCI 2011)征文 http://www.hhme.org/index.html 这个会议我前面已经介绍过,属于国内HCI方面最专业的学术会议了,而且质量每年都有很大提高,也会请不少牛人来讲演,对科研还是很有帮助的。今年主办场地回到了清华,而且和ubicomp基本同步,还有注册折扣,是个难得的机会。权在这里宣传一下,不要说我做广告哈。
个人分类: 学术活动|4485 次阅读|0 个评论
我只是想把科幻变成现实
walkskyfish 2010-10-14 00:44
大家好,我目前在北京大学计算机系读研。我的兴趣主要在计算机视觉、图形学和人机交互。这可能源于我本科的游戏开发经历以及数学系出身,或者是小学便开始的对科幻动漫的喜好。直到现在,说起科幻我还是兴趣十足,而漫画中对于人机交互的一些设想也深深打动着我,例如《游戏王》中的全息影像对战方式,《猎人》中那个超帅的小杰父亲留下的游戏我当然希望有一天这些都能成为现实。   也许正是因为以上的原因,我深深迷恋于一些高新科技,希望有一天自己也能将一些科幻动漫中的技术变为现实。当然,万丈高楼平地起,我初入实验室,目前的主要精力在于视觉和图形基础知识的学习,以及相关论文的阅读上。   以后我会将一些国际上较为前沿的技术、相关领域的论文解读(CVPR和SIGGRAPH等等)、个人的一些感悟与总结放在本博客上,算是自己前进的一些印迹,同时也希望给大家带来些帮助和参考。
个人分类: 生活点滴|2355 次阅读|0 个评论
论文被下载多少次才会有一次引用?
cwhm 2010-8-3 04:15
http://portal.acm.org/citation.cfm?doid=1667146.1667160 论文的作者 Pranav Mistry 是MIT的一 在读博士生 ,2009年在TED上的一场演讲更是掀起了一场电脑革命的旋风,演讲结束后被TED主持人誉为为当今世界上少有的两三个最伟大的伟大发明之一。 (在优酷上被播放 累计超过200多万次 ) 希望 Pranav Mistry 能帮我们回答一些问题,博士做到什么程度可以毕业?应该做什么样的论文?怎么引领未来的科技?
个人分类: 博文推介|3564 次阅读|8 个评论
人机交互技术概论
njumagic 2010-6-6 11:57
人机交互技术 (Human-Computer Interaction , HCI) 致力于人与计算机的协调,旨在消融这两个智能系统间的通讯和对话界线,使得人与机器的信息交流便捷而通畅 。 计算机系统的人机交互是以用户界面 (User Interface , UI) 为中介的人与计算机间信息传递和转换过程 :人向计算机传达交互意图 用户 通过其侧重于多媒体信息接受的感觉通道 ( 包括:视觉、听觉、触觉和嗅觉等 ) 对用户界面中诸如语音、图形和图像等多媒体信息的感知,先利用逻辑思维和形象思维能力产生对交互意图的心理描述, 再 按用户界面对交互的输入要求 使用其 侧重于过程控制与信息输入的 效应通道为 ( 包括:手、嘴、眼、头、足及身体等 ) 来实施交互行; 计算机向人传递计算和反馈结果 它利用其感知机制从精确的用户界面框架结构中获取用户的交互信息,并完成获取交互行为信息的感知处理、判断用户交互意图的认知处理和回馈交互结果的响应处理等一系列计算过程,最终运用其输出机制以用户界面所定义的特定形式输出其计算结果。 从信息传递的角度来看,用户界面的 任务是为人类的感觉和效应通道与计算机的感知和输出机制提供通信接口, 计算机系统的人机交互包含互不可分的两类感知过程:一类是人对计算机所提供信息的感知过程。在这个过程中,计算机利用其计算能力和各种媒体处理技术将计算机可供交互的输入要求或交互处理结果的反馈以适当形式在用户界面上呈现给用户;而人类使用感觉通道 ( 如:视觉和听觉 ) 接受和理解用户界面所提供的各种信息。这种感知过程的关键是用户界面所呈现信息的形式和丰富程度,并部分与用户的心理因素及其认知能力相关,这决定了人机交互中计算机与人间通信的输出带宽。另一类是计算机对人及其所处环境的感知过程。在这个过程中,人类按照计算机所要求的输入事件使用效应通道 ( 如:语音和动作等 ) 在用户界面中输入交互操作和指令;计算机则通过对来自用户界面的用户交互媒介信号的处理和分析来获取和识别用户交互意图,并以适当形式在用户界面上呈现给用户。这种感知过程不仅取决于计算机感知和识别人和物及其检测用户情绪变化或用户个性等信息处理能力,而且取决于用户有意识地将交互意图分解和组织为计算机所特有输入事件过程中所付出的认知努力,这决定了人机交互中计算机与人间通信的输入带宽。 此外,如果计算机是可以感知外部世界的机器,还存在两种特殊的感知:一种是计算机感知并传递人及其环境信息,人借助于计算机传递感知信息,它基本上不属于人机交互的感知,但可以作为人机交互感知的基础。例如:在视频会议、远程教学和远程医疗等系统中,计算机并不一定需要识别人的交互行为和信息,而只成为两人或多人之间的相互交流的媒介;另一种是人作为虚拟世界中的成员而从计算机中获得的感知,这种感知是人机交互的感知,而且人和计算机的感知地位是等同的,其感知信息的形态不仅内容丰富,而且可以是现实世界里所看不到的 ( 例如:虚拟的场景、文本和语音等 ) 。 从信息转换的角度来看,用户界面的 作用是实现用户认知空间与计算机信息处理空间间信息的双向映射。 由于人类的交互意图通常是一个涉及人的认知和行为因素的高维复杂信息,且这些信息是非精确的或模糊的;而计算机遵循线性信息表示和存储模式来表示和处理交互信息,所能捕获和处理的必须是形式化的精确信息,且其感知和处理结果不一定能够依从人的感知规则。 两者间的差异 决定了其双向映射实现的技术复杂性和方式多样性,因此,人机交互技术的任务就是要选择合适的映射方式来解决其技术实现的复杂性与 用户交互的易用性问题。 技术实现的复杂性主要体现在如何提升 计算机感知和识别用户交互行为和状态并进而理解其交互意图;用户交互的易用性则表现为如何充分利用和协调 人类的多个感觉和效应通道并进而降低其 完成交互行为所需付出的认知努力。显然,一个良好的映射方式将会极大地提高人机交互的自然性和高效性。在人机交互技术发展历程中,人机交互的界面形式经历了手工作业、命令接口 ( 作业控制语言及交互命令语言批处理 ) 、 ( 文本 ) 菜单到多通道、多媒体人机交互和虚拟现实系统;人机交互的信息载体经历了以文本和符号为主字符用户界面 (Character UI) 、以二维图形为主的图形用户界面 (Graphic UI) 、兼顾视听感知的多媒体用户界面 (Media UI) 及综合运用多种感觉 ( 包括触觉等 ) 的虚拟现实系统 (VR : Virtual Reality ) ;人机交互的信息维度从一维 ( 主要指文本流 ) 、二维 ( 主要是利用色彩、形状、纹理等维度信息的二维图形技术 ) 、三维 ( 主要是三维图形技术,但图形显示仍以二维平面为主 ) 向多维空间 ( 利用人的多个感觉通道和效应通道的信息 ) 发展,计算机与用户间的通信带宽不断提高。就其技术机理本质而言,这种发展蕴涵着对人机交互中两个主体不同侧重点的映射方式演化: 一种是以机器为中心的受限方式。这种方式强调将计算机的信息处理需求有效地呈现给用户,为用户 提供一个形式化、半双工、串行的低维度信息展现和操作界面 , 主要表现在两个方面:一是人的交互需基于离散事件,用户界面等同于一个解释器,它接受事件输入并反馈计算机处理的结果,在此过程中,多维信息矢量被压缩为一个低维矢量,形成一个串行的输入流;二是人的交互必须基于精确交互:用户在交互中需要把意图按模型要求分解并组织为计算机所特有的输入事件,以完全说明用户交互目的和意度。 用户必须面对机器操作定义的限制并付出较多的认知努力来使用计算机。从 用户角度来看, 这种方式支持的是 受限人机交互 (Formal HCI) ,用户需饱受命令记忆和新功能学习之苦 。 例如, 用户通过使用鼠标、键盘和显示器来与传统的桌面计算机进行交互时,与计算机及其上运行软件间的交互存在着受限的交互次序:完成特定序列的操作来创建 Word 文档、输入文本并将其打印,等等。 这种方式的实现关键在于计算机及其软件处理能力展示的有效性和合理性及用户操作的简便性和易记忆程度,具体表现为两个方面的问题:一是如何充分而有效地展示计算机及其软件的处理能力,即:如何定义操作及其布局,如:弹出菜单、下拉菜单、分层菜单等;二是如何让用户方便地使用和记忆,即:用户采用何种方式进行操作,如:命令语言、文字菜单和图标点击,等等。显然这种方式限制了人机间的通信带宽,使得既不能有效地利用当今计算机的强大计算和处理能力,也给 用户使用电脑有诸多不便 。 传统用户界面都是采用了这种映射方式。它主要包括三大类: (1). 命令语言交互 (Command HCI) :这种人机交互始于联机终端的出现,用户与计算机间借助一种双方都能理解的语言进行对话。根据语言特点可分为:① 形式语言。这是一种人工语言,特点是简洁、严密、高效,如:应用于数学、化学、音乐、舞蹈等各领域的特殊语言,计算机语言则不仅是操纵计算机的语言,而且是处理语言的语言;② 自然语言。特点是具有多义性、微妙、丰富。③ 类自然语言。这是计算机语言的一种特例,命令语言的典型形式是动词后面接一个名词宾语,即:动词 + 宾语结构,二者都可带有限定词或量词。命令语言可以具有非常简单的形式,也可有非常复杂的语法。它要求惊人的记忆和大量的训练,且容易出错,但具有灵活和高效的特点,适合于专业人员使用。 (2). 图形交互 (Graphic HCI) :图形用户界面 (Graphics UI , GUI) 是当前人机交互的主流,成熟的商品化系统有 Apple 的 Macintosh 、 IBM 的 PM(Presentation Manager) 、 Microsoft 的 Windows 和运行于 Unix 环境的 X-Window 、 OpenLook 和 OSF/Motif 等。这种界面包含三个重要思想:① 桌面隐喻 (Desktop Metaphor) ,即在用户界面中用人们所熟悉的桌面上的物品来清楚地表现计算机可处理的能力;② WIMP(Windows 、 Icons 、 Menu and Pointer) 是组成图形用户界面的基本单元,以可重叠多窗口管理的窗口管理系统为核心,使用键盘和鼠标器作为输入设备,并广泛采用事件驱动 (Event-Driven) 技术;③ 直接操作及所见即所得 ( What You See is What You Get ) 的界面,交互过程极大地依赖用户视觉和手动控制的参与,具有强烈的直接操作特点。菜单 (Menu) 本身与图形人机交互并没有必然联系,在图形用户界面出现前,字符型菜单已经在用户界面中得到了广泛应用。但图形人机交互中菜单的表现形式比字符人机交互更为丰富,在菜单项中可以显示不同的字体、图标甚至产生三维效果,同时,还可以诸如层叠式 (Hierarchy) 、弹出式 (PopUp) 、下拉式 (PullDown) 和滚动式 (scrolling) 及其组合等多种形式出现,菜单式人机交互与命令语言人机交互相比,用户只需确认而不需回忆系统命令,从而大大降低记忆负荷,其缺点是灵活性和效率较差,可能不适合于专家用户。图形人机交互具有一定的文化和语言独立性,并可提高视觉目标搜索的效率;其主要缺点是需要占用较多的屏幕空间,并且难以表达和支持非空间性的抽象信息的交互。 (3). 直接操纵 (Direct-manipulation HCI) :直接操纵更多地借助物理的、空间的或形象的表示,而不是单纯的文字或数字表示。前者已为心理学证明有利于问题解决和学习。视觉的、形象的 ( 艺术的、右脑的、整体的、直觉的 ) 人机交互对于逻辑的、直接性的、面向文本的、左脑的、强迫性的、推理的人机交互是一个挑战。直接操纵人机交互的操纵模式采用宾语 + 动词结构, Windows 95 设计者称之为以文档为中心,用户最终关心的是其欲控制和操作的对象,即:只关心任务语义,而不用过多为计算机语义和句法而分心。对于大量物理、几何空间及形象的任务,直接操纵表现出巨大的优越性,但它在抽象而复杂的应用中具有局限性。对于用户界面设计者来说,图形的设计比较因难,需大量测试和实验;而复杂和抽象语义的表示比较困难,不容易实现交互与应用程序的独立设计。 另一种是以用户为中心的非受限方式。这种方式强调 将 对人类自然能力 ( 尤其交流、运动和感知能力 ) 与计算设备及其感知和推理结合起来,通过 采用多种模态 (Multimodal) 感知人类的自然行为, 并以易理解的多媒体 (Multimedia) 形式实现多通道 (Multichannel) 通信,建立以人为中心的感知用户界面 (Perceptive User Interface , PUI) 。这种界面旨在充分使用人类诸如语音、手势、视线及头部跟踪等多个感觉和效应通道,并使之可选择地并行和协作来实现多通道、非精确、高带宽、高效及不限制地点的人机通信 ,以拓展人机间信息通信的带宽,减少人类的交互认知努力,提高人机交互的自然性和高效性。从 用户角度来看, 这种方式支持的是 非受限人机交互 (Informal HCI) ,其主要出发点是借助于媒体感知技术获取并理解用户动作、行为、习惯、偏好及其它相关交互信息,来缓解以至于消除计算机和用户对交互意图的认识和描述存在的精确信息 ( 人机系统的内部表示 ) 和非精确信息 ( 人机系统的外部表示 ) 间的鸿沟;其实现的关键在于计算设备对人的动作和行为识别的有效性, 因此, 支持这种交互方式的用户界面又称为基于识别的用户界面 (Recognition-based User Interface) 。 这种方式的用户界面则代表着人机交互技术的发展方向,体现了对人的因素的重视,标志着人机交互技术 从人适应计算机向计算机不断地适应人方向发展, 就是要给用户充分的自由,使得人类不再需要按机器的要求扭曲自己最自然的思维和行为方式,而可以像在电脑出现前人类那样自由地工作和生活。传统的界面事实上成为隔离物质世界和信息世界之间的屏障,虚拟现实、网络计算、智能代理和 软件机器人、 计算机支持的协同工作等技术的应用,将实现虚物实化和实物虚化,消除物理对象和抽象对象、输入装置和输出装置在交互空间中的差别,并为人提供多感觉通道的自然临境体验; 语音及文字识别和自然语言理解等 言语计算 ,手写体和手绘草图识别等笔式计算及 手势和表情识别、视觉 - 目标拾取认知技术等视觉计算等技术的不断发展和完善,将不断提高人机交互的智能化程度,使机器能够根据上下文及使用者的特点主动识别人的身体姿态、手势、语音和表情等各种自然行为,进而判断出人的意图。同时,机器的功能齐全、高效,既适于人的操作使用,也能满足人的审美和认知需要,机器的操控和使用将更加符合人的习惯,并具备听、看和说的能力,人可以语言、文字、图像、手势、表情等自然方式与机器打交道,恰如与他人交流一样自然。因此,用户界面是能模拟多种智能和真实环境的虚拟空间,人们能够在任何时间、任何地点与任何需要的环境 ( 包括人 ) 以最自然和身临其境的方式来完成所需要完成的工作;实现无形而又无处不在,有形而又自然和谐的普适交互 (Ubiquitous/Pervasive HCI) 模式,这种方式的特性体现在以下三个方面: 以用户为中心 (Human-Centered) :以用户对人机交互的需求变化为出发点,使人机交互的外在形式和内部机制能符合不同用户的需要。人类的交互行为是自然的,用户将可利用语音、手势、笔划等自然方式,不受地点限制地与计算机进行交互 , 既能满足用户个性化的需要,又使得用户不脱离自然社会关系 ( 包括社会经济环境和人类沟通交流 ) 。 多模态 (Multimodal) 交互:充分利用人类多种感觉和效应通道的互补特性, 并使之可选择地、充分地并行和协作 来捕捉用户的交互意图,从而增进用户交互的自然性。模态 (modal) 和通道 (Channel) 间的联系和区别主要在于:人类通过视觉、听觉、触觉、味觉和嗅觉这五种感官的信息发送和接收来实现与世界交互的,一种模态对应一种官能;而通道是指信息传递的过程或途径。在人机交互应用中,通道描述一种交互技术,这种技术可基于某种特殊设备,如:键盘或鼠标,也可基于某种特殊行为,如口语、书面语或手势。如:命令语言用户界面中的每个命令都会使用视觉和触觉等多种模态;而图形用户交互既使用了视觉和触觉等多种模态,又用到了诸如键盘、鼠标和声音及图像等多种通道。多模态人机交互是使用同等方式将两种或两种以上输入模态相结合的技术,其重点是将基于诸如语音识别、笔形手势识别、计算机视觉等传感识别的输入技术集成到用户界面中。也就是说,多模态人机交互使用多种模态来实现多种通道通信。使用多种模态生成单独的通道,如:利用视觉和声音进行三维用户定位,属多传感器融合 ( Multisensor Fusion ) ;类似地,使用一种模态生成多种通道,如:左手鼠标指示,右手鼠标选择,则属于多通道或多设备 ( Multichannel or multi-device ) 人机交互。 多媒体感知 ((Multimdia Perceptive) :机器利用其感知及推理能力对来自用户感觉和效应通道的交互信号进行识别、集成和协调,并获取用户动作和行为习惯、偏好及其它相关信息, 并以人类易理解的多媒体信息方式为用户提供输出信息,从而 提供不受时空限制而又效能最大化的个性化计算服务 。 这种人机交互方式的双向信息流动是以多媒体感知和处理为核心的:用户通过其感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形和图像等多媒体信息,人到机 (Human to Compute) 信息流动是多媒体信息的获取及识别过程;计算机经过处理的信息需要以文本、语音、图形和图像等用户理解概念所需的多媒体信息形式展现出来,机到人 (Computer to Human) 的信息展流动是多媒体信息的合成和呈现过程。 自 Weiser 博士提出 普适计算 (Ubiquitous/Pervasive Computing) 以来,人类开始向未来计算探索的进程,也催生了 以 网格计算 (Grid Computing) 和云计算 (Cloud Computing) 为代表的计算 分布化 (Distribution) 、以嵌入式计算 (Embed Computing) 为代表的计算 透明化 (Transparent) 、 以虚拟现实 (Virtual Reality) 和可穿戴计算机 ( Wearable Computer ) 为代表的计算机系统拟人化 (Personate) 和有形化 (Tangible) 、以手持电脑 (PDA) 和智能手机 (Smart Phone) 为代表的计算机系统微型化 (Micromation) 和随身化 (Mobile) 及以智能空间 (Smart Space) 和环境智能 (Ambient Intelligence) 为代表的计算机系统嵌入化 (Embeded) 和无形化 (Invisible) 等众多新型计算技术, 推动着 机箱时代迈向一个崭新时代:计算设备将从人类视野中消失,那些装在机箱中的声音、视频和通信等将游荡于我们周围环境中而变得无处不在。 这个时代具有两个重要特征 : 一方面,小型化嵌入式计算设备将使得人类生活的自然环境具有计算能力,它能自主感知人的存在,并在人类需要时出现和对其行为作出反应;另一方面,计算将日常生活化,能帮助人类安排、构造和控制日常生活,人类将能享受的计算服务,人类能以最自然的方式、在任何时间、任何地点、通过任何设备从环境中无意识地获取有感觉的计算资源和计算服务。概括地讲,在这个时代,人类生活将片刻离不开机器,人与机器间的交流更加自然和没有阻碍,人和计算间将是非侵入且不可见的交互, 现实世界就成为用户界面 ,用户只需运用其日常技能来操作和使用计算设备,而 不再关注交互媒体形式, 也无需特定的用户界面,即: Idea Interface is no interface 。 这既对人机交互技术提出了更高的要求和新的挑战,也为人机交互技术的发展注入了新的动力,因此,自然、高效、无障碍的新型人机交互技术成为该领域发展方向和研究热点。 新型人机交互技术的最主要特性就在于用户交互的非受限性 (Informaity) :机器给人以最小的限制并对人的各种动作做出反应,人是主动参与者,可以最大的自由度操作机器,如日常生活中 人与人间的交流一样 自然、 高效和无障碍 。这种人机交互技术强调两个关键特征:一是 交互隐含性 。理想的人机交互应当使用户把所有注意力集中于完成任务而无需为交互操作分心,且应允许使用模糊表达手段来避免不必要的认识负荷,有利于提高交互活动的自然性和高效性。传统用户界面都是等待用户输入命令才开始采取行动,而新颖人机交互技术的用户界面则应是积极地感觉和理解世界,并让用户在各个层次上根据目标和已有知识采取行动,并以充分性代替精确性。理想地,这是一个使用被动或非侵入性感知的主动交互方式,无需用户显式说明交互成分,仅在交互过程中隐含地表现而允许非精确的交互,如:用户视线自然地落在所感兴趣的对象上;用户的手自然地握住被操纵的目标;等等。二是 交互多模态性和双向性 。允许使用多种感知模态 ( 如:视觉、听觉、触觉等 ) 或多个感觉和效应通道,突破了模态和鼠标键盘显示器通信通道的限制,使用连续形式和并行形式在内的多种模态。尽管感觉通道侧重于多媒体信息的接受,效应通道侧重于交互控制与信息输入,但两者是密不可分、相互配合:只用一种通道不能充分表达意图,就需要其它通道信息辅助。有时,使用辅助通道仅为增强表达力,否则,就必须允许充分地并行和协作的通道配合关系。此外,人的感觉和效应通道通常具有双向性特点,如:视觉可看又可注视;手可控制又可触及;等,新颖人机交互技术让用户避免生硬、频繁或耗时的通道切换,从而提高自然性和效率。如:视线跟踪系统可促成视觉交互双向性;听觉通道在利用三维听觉定位器实现交互双向性;等等。 新型 人机交互技术的核心问题在于如何确保计算设备对人的动作和行为识别的有效性并实现人机的和谐共处。计算设备及其传感器是透明和被动的,但可以主动感知人类相关通信通道并输出人类可理解的结果。这就需要不同类型和层面技术的集成,并随着关键维度或特征发生变化,包括:输入模态的数目和类型;通信通道的数目和类型;使用并行模式、串行模式或同时使用并行和串行模式的能力;识别模式的大小和类型;传感器和通道的集成方法及支持的应用种类,等等。依据充分利用人类感觉和效应通道并使得人机交互更加自然的目标,新型人机交互的关键技术主要集中在以下几个方面: (1). 支持语音交互 (Speech-Based HCI) 的言语计算 (Speech Computing) :语音是人类一种重要而灵活的通信模态,言语交互的核心是语音识别,其任务就是利用语音学和语言学知识,先对语音信号进行基于信号特征的模式分类 ( 这是语音信号处理的范畴 ) 得到拼音串,再利用语言学知识对拼音串进一步处理,得到一个符合语法和语义的句子。简单地说,语音识别就是让计算机能听懂人说话,将人说的话转换成计算机文本。 (2). 支持笔迹交互 (Pen-Based/Calligraphic HCI) 的笔迹计算 (Calligraphic Computing) :笔迹交互是通过计算机软硬件技术和相关领域的研究,模拟人类笔录纸现这一日常技能的一种人机交互方式。在这种用户界面中,用户借助鼠标、笔迹交互器及触摸屏等设备用手自由地书写或绘制各种文字和图形,计算机通过对这些输入对象的识别和理解获得执行某种任务所需要的信息。 它充分利用书写的自然性和墨水丰富的表达能力 ,从而拓宽了人机交互的频带,使人们通过笔迹交互自然地使用计算机的高性能计算能力:从计算机处理角度看,笔迹交互可以在一个或多个连续的笔画中自然地提交计算任务所需要的命令和参数;从人机交互角度来看,它通过将用户的交互意图映射为由压力、方向、位置和旋转等信息共同构成的多维矢量序列 ;从认知心理学角度看,用户的交互意图通过几个效应和感知通道提交。与言语交互相比,笔迹交互以视觉形象表达和传递概念,既有抽象、隐喻等特点,还具有形象、直观等特征,易于理解和记忆,更适于推论和构思;与传统图形图像工具相比,它具有自然、简便,可表达不完备模糊概念,拥有强大的信息表达能力,有利于创造性思想的快速表达、抽象思维的外化和自然交流。 (3). 支持视觉交互 (Vision-based HCI) 的视觉计算 (Vision Computing) :在人类日常面对面交互中,除使用语音和文字外,还可利用身体各部位的姿态和动作 ( 即所谓身体语言 ) 来表达自己的意思。视觉和言语是联合表达、相互补充的通道,诸如脸部表情、注视焦点、肢体动作及其它活动等行为线索能为交流提供相关上下文信息,这些信息不仅能加强语音的表达能力,还能起到语音交互所不能起到的作用,并影响交谈的内容和进程,如:头部动作可能是否定或肯定的信号,脸部表情可能是无奈或赞许的表式,注视角度可能可消除这边或那边等语言中指代不明的问题。视觉交互技术 (Vision-based Interaction) 的目标就是在人机交互中采用计算机视觉作为有效的输入模态,探测、定位、跟踪和识别用户交互中有价值的行为视觉线索,进而预测和理解用户交互意图并做出响应。这种技术可以支持人机交互中的一系列的功能,如:人脸检测、定位和识别 ( 确定场景中的人数、位置和身份等 ) ;头和脸部的跟踪 ( 用户的头部、脸部的位置和方向 ) ;脸部表情分析 ( 用户表情状态:微笑、大笑、皱眉、说话、困乏等 ) ;视听语音识别 ( 协助判断用户说话内容 ) ;眼睛注视跟踪 ( 用户的眼睛朝向 ) ;身体跟踪 ( 用户身体的位置,身体的动作等 ) ;手跟踪 ( 确定用户手的位置,二维或三维模型、手的结构等 ) ;步态识别 ( 识别人的走路 / 跑步的风格 ) ;姿势、手势和活动识别等,最终实现人与机器的行为交互 ( Behaviour Interaction) 。 (4). 支持情感交互 (Affective-based HCI) 的情感计算 (Affective Computing) :众所周知,人类相互之间的沟通与交流是自然而富有感情的,计算机没有情感能力,就很难指望它具有类似人一样的智能,也很难期望人机交互真正实现和谐与自然。因此,人们在与计算机交互的过程中,也期望计算机具有情感和自然和谐的交互能力 。而情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,它是通过各种传感器获取由人的情感所引起的表情及其生理变化信号,利用情感模型对这些信号进行识别,从而理解人的情感并做出适当的响应。其重点就在于创建一个能感知、识别和理解人类情感的能力,并能针对用户的情感做出智能、灵敏、友好反应的个人计算系统 。拥有情感能力的计算机能够对人类的情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并有效减轻人们使用电脑的挫败感,甚至帮助人们便于理解自己和他人的情感世界。情感交互还能帮助我们增加使用设备的安全性、使经验人性化、使计算机作为媒介进行学习的功能达到最佳化。 (5). 支持可穿戴交互 (Wearable HCI) 的穿戴计算 (Wearable Computing) :可穿戴计算机是一类超微型、可穿戴、人机最佳结合与协同的移动信息系统。可穿戴计算机在体系结构、功能、形态、用途及使用方式上与现在流行的笔记本电脑、掌上电脑 (HPC) 、个人数字助理 (PDA) 等移动计算装置迥然不同:可穿戴计算机不只是将计算机微型化和穿戴在身上,它还实现了人机的紧密结合,使人脑得到直接和有效的扩充与延伸,增强了人的智能。这种交互方式由微型的、附在人体上的计算机系统来实现,该系统总是处在工作、待用和可存取状态,使人的感知能力得以增强,并主动感知穿戴者的状况、环境和需求,自主地做出适当响应,从而弱化了人操作机器,而强化了机器辅助人。 上述技术都是利用人与人及人与世界间口头或非口头的交互方式,使用各种模态来实现多通道通信,本质上都属于支持感知交互的感知计算 ( Sentient Computing) 。 (6). 支持虚拟交互 (VR HCI) 的虚拟现实 (Virtual Reality) :虚拟现实的基本原理是采用摄像或扫描的手段 ( 而不是传统的建模手段 ) 来创建虚拟环境中的事件和对象 , 生成一个逼真的三维视觉、听觉、触觉或嗅觉等感觉世界,让用户可以从自己的视点出发,利用自然的技能和某些设备对这一生成的虚拟世界客体进行浏览和交互考察。其特点包括: 逼真的感觉 ( 视觉、听觉、触觉、嗅觉等 ) 、 自然的交互 ( 运动、姿势、语言、身体跟踪等 ) 、个人的视点 ( 用户的眼、耳、身所感到的感觉信息 ) 和迅速的响应 ( 感觉信息根据视点变化和用户输入及时更新 ) 。这些特点可概括为三大特征:沉浸感 (Iimmersion) :是指用户作为主角存在于虚拟环境中的真实程度;交互性 (Iinteraction) :指用户对虚拟环境内的物体的可操作程度和从环境得到反馈的自然程度 ( 包括实时性 ) ;想象力 (Imagination ) :指用户沉浸在多维信息空间中,依靠自己的感知和认知能力全方位地获取知识,发挥主观能动性,寻求解答,形成新的概念。 (7). 支持人脑交互 (Brain-Computer Interaction) 的脑计算 (Brain Computing) :最理想的人机交互形式是直接将计算机与用户思想和目的进行连接,无需再包括任何类型的物理动作或解释,实现 Your wish is my command 的交互模式 。虽然在可预见的未来这种思想不太可能实现,但对人脑计算机界面 (Brain-Computer Interface , BCI) 的初步研究可能是迈向这个方向的一步,它试图通过测量头皮或者大脑皮层的电信号来感知用户相关的大脑活动,从而获取命令或控制参数。人脑交互不是简单的思想读取或偷听大脑,而是通过监听大脑行为决定一个人的想法和目的,是一种新的大脑输出通道,一个可能需要训练和掌握技巧的通道。 当前,采用第一种方式的图形用户界面仍是应用的主流,尤其是 以超文本标记语言 (HTML) 及超文本传输协议 (HTTP) 为基础的网络浏览器和 搜索引擎的桌面网络用户界面最为普遍,包含了适应不同带宽 ( 从高速视频点播到低速移动电话 ) 、不同尺寸 ( 从手表、掌上电脑到墙壁大小 ) 的各种用户界面;而采用第二种方式的语音、手写等易用而方便的界面也正逐步普及,多通道、多媒体的自然、高效、智能化用户界面正得到快速发展和应用。 . 栗阳 , 关志伟 , 戴国忠 , 笔式用户界面开发工具研究 , 软件学报 , 2003,14(3):392 -400. . Ivan Sutherland , Sketchpad: a man-machine graphical communication system, In: Proceedings of the 1963 Spring Joint Computer Conference, Baltimore, MD: Spartan Books, 1963 : 45-53 . . Microsoft Presspass , Digital Ink, Breakthrough Technology in Tablet PC: Brings the Power of the Pen to the Desktop, http://www.microsoft.com/presspass/features/2002/, 2002 . Walid G Aref, Daniel Barbar, Daniel P Lopresti, Ink as a First-Class Datatype in Multimedia Databases, Jajodia S and Subrahmanian V S, Multimedia Databases, SpringerVerlag,1995 :pp. 113-163 . . Daniel P. Lopresti, Ink as Multimedia Data, In: Proceedings of the Fourth Intl. Conference on Information, Systems, Analysis and Synthesis, Orlando FL, 1998. 122-128. . http://www.w3c.org/TR/InkML . Rejean Plamondon and Sargur N Srihari , On-Line and off-line Handwriting Recognition: A Comprehensive Survey, IEEE Trans. On Pattern Analysis and Machine Intelligence, 2000,22(1) : 63-84 . . 孙正兴 , 冯桂焕 , 周若鸿 , 基于手绘草图的人机交互技术研究进展 , 计算机辅助设计与图形学学报 , 2005,17(9): 1891-1899. . Matthew Turk and Mathias Kolsch , Perceptual Interfaces, University of California, Santa Barbara, Technical Report 2003. . 王坚,董士海等,基于自然交互风格的多通道人机交互模型,计算机学报, 1996, 19( 增 ) 。 . Ian H S Cullimore, An analysis and implementation of informal Human-Computer Interaction, Cognitive and Computing Sciences, The University of Sussex, May 2000. . Sun Zhengxing and Liu Jing, Informal User Interface for Graphical Computing, Lecture Notes in Computer Science, Springer-Veralg, Vol 3784 , 2005 : 675-682. . Picard R D 著,罗森林译,情感计算,北京理工大学出版社, 2005 . M.A.L. Nicolelis, Action from thoughts. Nature , 409, 2001: pp. 403407 . . Jorge J A and Glinert E P, Calligraphic Interfaces : towards a new generation of interactive systems , Computers Graphics, 2000, 24(6) : 817-823 。
个人分类: 研究报告|14260 次阅读|1 个评论
开博第一篇
yestin 2010-4-20 01:38
大家好:)很高兴在这里安家。 我是中科院软件所IEL实验室的一名学生,我们实验室主要的研究方向为人机交互技术和智能信息处理。在人机交互方面,我们实验室有草图用户界面、笔交互技术以及虚拟现实技术等几个研究小组,它们都有着不俗的成绩,在CHI、IUI等一系列人机交互顶级会议上发表了多篇论文,并得到了广泛的认可。 http://iel.iscas.ac.cn/ 我作为一名硕博生,关注并对以下技术感兴趣,欢迎与各位老师同学交流:人机交互技术、草图用户界面、视频处理、信息可视化。 -------------------------------- Hiall:)It'smypleasuretohaveabloghere! I'mastudentofIELISCAS.OurlaboratoryfocusesonHCItechnology.Nowwehaveseveralresearchgroupssuchassketchuserinterface,penbasedinteractionandvirtualreality.Everygrouphasgoodresult.TherearemanypapersontopinternationalconferencesuchasCHI,IUIandsoon. Thisiswebsiteofourlaboratory:http://iel.iscas.ac.cn/ I'minterestedinthoseresearchareas:humancomputerinteraction,sketchuserinterface,vedioprocessing,informationvisualization. I'mgladtodiscusswithyouall! -------------------------------
个人分类: I&Others|3997 次阅读|1 个评论
人机交互领域的两项重要创新
timy 2010-1-11 19:31
1. SixthSense,MIT Media Lab开发,开发者说会将这个技术开放源代码 2. Project Natal,微软2009年开发
个人分类: 科学评论|4107 次阅读|2 个评论
人机交互系统与复杂系统
liuxiwei 2009-12-4 13:05
包括人,机/系统,环境部分的人机交互系统本质上属于复杂系统。 先看看对复杂系统的描述。对于复杂系统基本上没有一个统一的定义。按照王飞跃教授的观点,复杂系统是从两个特点上定义的。一是不可分,不能割裂通过研究系统的各个部分来还原系统的特性。这一点在人机交互系统很明显,三个子系统:人,机,环境要综合考虑,尤其是设计到了人,人的认知,行为,心理,生理等等因素都要综合起来才能分析人机问题的本质。二是不可知,还是因为人的存在,人机交互系统的研究很难做到真正的定量研究。不论是预测评估还是决策支持,都是定性的说明或者比较。所以说本质上,人机交互系统是一种复杂系统。对人机系统的研究要借鉴复杂系统的研究手段。比如构建人工系统,应用代理建模。
个人分类: 人机交互|4296 次阅读|0 个评论
人机交互研究种种
liuxiwei 2009-11-25 12:46
国内做的人太少了,希望能渐渐多起来。 1. 模型与分析 Model human processor Cognitive model SOAR、ACT-R、EPIC、GOMS Human information processing model Human performance model Human behavior model Plant operator model Car diver model Pilot model Human workload estimation Mental workload Attention resource allocation Computer supported collaborative work (CSCW) Cognitive task analysis Situation(al) awareness 2. 统计与测试 Performance shape factors Human reliability analysis/assessment CREAM (Cognitive Reliability Error Analysis Method)-Hollnagel Human errors Human factors and ergonomics User interface evaluation Heuristic evaluation Cognitive walkthrough NASA-TLX Usability evaluation Usability engineering 3. 人物 Card, Stuart K., Thomas P. Moran, and Allen Newell John R. Anderson Jakob Nielsen Cacciabue, P.C Hollnagel, E.
个人分类: 人机交互|3571 次阅读|0 个评论
人机交互建模的系统观点
liuxiwei 2009-11-24 18:01
人机交互研究涉及到3个系统:人,环境,交互系统。针对这一复杂系统建模实际上是一个人工社会的构建。 通常的工业系统环境建模包括: 物质流 + 能量流 + 信息流 交互系统和人员建模包括: 内在(属性) + 外在(环境) + 运动(输入输出交互) 这种社会系统建模的特点: 多维(多变量) + 不确定(非线性时变) +需要 数据支持(历史的 经验的)。这三个特点也增加了人工系统构建的难度,系统的输入不是简单的一一对应关系,不可数学描述,没有确定的函数关系。系统的输入一般是一个包含了上下文环境的场景,有一系列的研究叫做situation awareness,系统的输入就是这种situation还包括了上下文context环境。系统的转换机制还具有不确定的随机和模糊因素。这种系统建模要讲究一定程度的fidelity,如何提高准确性也是一个重要课题。常用统计数据,专家经验,实验验证等手段校准模型。
个人分类: 人机交互|3114 次阅读|0 个评论
北京地铁的人系统交互与文化因素
liuxiwei 2009-11-19 15:59
回国3个月了,每日乘坐地铁,也来说说北京地铁的人机交互。人是主体,机的话有些用词不当,要说的是地铁运营系统的几个方面,所以说人系统交互(human-system interface)合适些吧。简单从几个角度评价一下这一系统可用性: 首先说地铁的标识系统。(色彩因素)13号线选用了黄色表示,黄色在白色背景上非常不明显,虽然多数人知道那是13号线,可是界面设计不是仅仅为熟悉界面的人设计的。色彩设计不友好,不宜被扑捉。尤其是车厢门口上方的路线表示,估计很少有人能看到小圈里的13。 (记忆因素)出口标号采用了英文字母为主附加数字的方式,中国人估计不太适应去记忆英文字母,帮人指引路线也不太方便。 (理解因素)自动售票机顶上的字体为什么是滚动的?要想看到全部内容还要稍微等一下。in service和maintenance为什么中文却是服务模式和维修模式?模式这个开发人员使用的名词也呈现给用户了。 (简单因素)统一设定了一张票2元为什么买票的时候还有那些罗嗦的地图和不必要的选项。充值的时候确认按键按的慢了,就等于充值取消,也太气人了。 (高效因素)换乘口太少,一般只有一个,地铁出口每节车厢就有3个,10多个出口的人只能涌向一个换乘口,拥挤也就不可避免了。设计最差的是东直门,换乘一下要走10多分钟,是什么道理?换乘的队伍拉长了,效率降低了。 (满意度or低挫折感)还有很多人下车出站,却发现轧机很多是红叉。 (人员交互行为)中日文化的差别体现在上下车方式上很有意思。北京地铁下车的人一般要主动跟前方的谋生人说下车吗?不下换一下。日本就不同,有人下车前方的人让不开的话,主动下车避让。提前换出的方式就节省了不少时间,列车的停站时间可以缩短。日本人上车,外边的站员帮助往里硬挤,国内就要自己挤。日本常常有人因为挤压病倒,耽误列车运行,也是他们的忍让不给人添麻烦的文化特点决定了,看似和谐可往往因病耽误了大家。北京地铁内就常听到别挤了!的喊声。 (系统结构布局)另外,调度方式上。日本地铁设置了普通、急行、特急等档次的列车,快车在上人少的站就不停,慢车就在一些站点给快车让路,效率不错。北京的站台固定成了往返2个,估计不能拓展成3条线了,将来估计也不列车分级了。
个人分类: 人机交互|3553 次阅读|0 个评论
从人机界面谈起
liuxiwei 2009-11-16 21:02
日常生活中的每一件事几乎都离不开人机界面,可以说自从人开始利用工具就有了人机界面。本质上,制造工具必须制作人机界面。最早打猎用的石器,通过琢磨就有了适合使用携带的界面。随后的机械,电气,电子,通讯,网络设备都有各自的人机界面。操纵杆,方向盘,按键,鼠标,触摸屏各种新型界面纷纷登场了。除了触摸式的界面,还有了多媒体多通道的界面,比如声音,视线,生物特征等等。据一个例子,我们拨通手机查费电话后,语音提示:普通话请按1,英语请按2(按1)-〉冲值卡冲值请按1,话费查询请按2,人工服务请按3。。。。。。这种也是一种界面。其实,这个时候应该换一个名词--人机交互(human machine interaction)更加合适了。工业监控系统有很多操作界面--系统概要图,流程图,控制图等等,此外还有报警系统,操作支持系统,就不仅仅是一些图形界面了,还包括报警限设定,流程操作逻辑等等。所以使用人机交互这一名词更加方便。大型的工控系统不是一个操作员就能解决问题的,班长,操作员若干人,甚至还有室外现场的操作员。这种情况人机交互系统变得更加复杂起来,出现了新的交互问题--人人交互(human-human interaction)。与界面对应的interface也有接口的叫法,比如network interface,cpu interface等等是一种机机界面。还有一些特别的交互--brain-machine interface。 不论什么交互,本质上都是双向信息流的交换。但是这种交换有着不对等的特点,机机交互也分为主机客户端。人机交互现在很发达了,人可以很方便的下达指令,也可以得到充足的机器运行状态。但是缺乏机器对人状态的了解,未来期望能够设计出更为人性化的生态界面,机器变得更有灵性。
个人分类: 人机交互|3151 次阅读|0 个评论
BCI2000等等
王志军 2009-9-2 17:21
前几天看到一个科学网上一个舌视的系统,不禁联想起来聋哑人的问题。舌可以用来做视觉的转换,同样也可以用来做听觉的转换。一系列的研究表明,感官神经是进化的产物,人造的神经连接同样可以逐步进化逐步替代人的感官连接。说白了,就是一个脑电波与电磁波交流的问题。在网上搜了一下,类似的头套已经上市了,在虚拟现实的游戏中率先派上用场。其技术是基于一种叫做BCI2000的脑机接口协议。有了这样一种技术,人类的大脑就可以摆脱身体的束缚,在信息的平台上畅行无阻。于是视觉,听觉,嗅觉等所有的感官都可以得到充分的扩展。这样发展下去,人类真的有一天会像科幻小说里描述的那样成为意识的精灵,遨游在茫茫宇宙。针对这样一种技术,我认为其中的一些问题和方向值得我们去深入思考: 1、安全性   且不说电磁波对脑电波的辐射干扰等因素,在人机交互的时候,使用者的脑电波有可能会被黑客黑掉,人的隐私是一方面,严重的话可能会致使脑死亡。可以参考电影骇客帝国》,呵呵。 2、年龄限制   这个对大脑处于成长期的儿童应该是不适宜的吧? 3、硬件接口   对脑电波的分析扫描难免出现偏差,人的大脑有没有数据总线,有的话硬件接口也就应当快捷多了啊。 4、应用   这种技术不仅可以拓展的人的感官,更可以用人来训练机器人。它应该是人工智能时代的钥匙!   
个人分类: 未分类|6562 次阅读|0 个评论
“搜索行为与用户认知研究”北京研讨会即将举办
timy 2009-6-26 20:58
明天一早准备过去学习一下,研讨会主题是搜索行为与用户认知研究,这方面的研究与经典的人机交互研究有交叉,我个人认为信息检索研究人员(主要包括为信息检索理论、方法、技术等相关的研究),对这个话题有点了解是有益的,呵呵。 做主题演讲的主要包括国内搜索行为与用户认知研究相关的科研团队(主要为情报学研究领域),与相关企业(包括:两个知名搜索引擎公司,即Baidu和Google、一个咨询公司、一个做电子商务的公司)。 期待到时候,各方的交流能碰出有意义的火花,研讨会 具体信息附后。 --------------------------------------------------------------------------------------------- 转载于: http://www.im.pku.edu.cn/shownotice.asp?id=99 搜索行为与用户认知研究北京研讨会即将举办   由北京大学信息管理系暨国家信息资源管理北京研究基地和南京理工大学经济管理学院信息管理系共同发起并主办,国家信息资源管理北京研究基地承办的搜索行为与用户认知研究北京研讨会( Searching Behavior and User Cognitive Research Beijing Workshop )将于 2009 年 6 月 27 日在北京大学召开。   用户行为与认知研究起源于 20 世纪 70 年代,至今已有 30 余年的发展历史。它对用户的信息查寻行为,数据库使用和网络搜索行为等做出了突出的贡献,为了解用户的认知、情感、动机和行为特征,改善信息检索系统的服务质量提供了夯实的实证研究基础。对用户的研究成为情报学和信息管理领域从事信息检索研究的独具特色的组成部分。   近年来,国内陆续涌现出越来越多从事用户行为与认知的研究团队,并在用户的网络搜索行为、用户认知与体验、信息构建和用户服务与体验等方面取得了一系列的成果。本次研讨会的主旨是汇集国内从事本领域相关研究的团队,交流分享研究经验和成果,并为研究团队之间的协作与研究资源共享搭建平台。 会议筹备组 2009 年 6 月 21 日 主办单位:北京大学信息管理系暨国家信息资源管理北京研究基地      南京理工大学经济管理学院信息管理系 承办单位:国家信息资源管理北京研究基地 会议时间: 2009 年 6 月 27 日 会议地点:北京大学艺园三楼会议室(由艺园北侧楼门上三楼) 报到时间: 2009 年 6 月 26 日全天 报到地点:北大资源宾馆(北京大学西南门外,海淀桥北硅谷电脑城对面)
个人分类: 信息检索|4619 次阅读|2 个评论
非受限人机交互概念与技术
njumagic 2009-2-9 00:37
随着计算机越来越深入日常生活,我们用一种与以前相比,更加非受限的方式与它们进行交互。以采用最新的微波炉烹调食物为例,它们察觉到食物熟了才停止加热,而不用预先设定需要多少时间。现代照相机也是非受限的,因为我们可以直接拿起它们取景和拍摄;相机可以自行调焦并计算所需的曝光度,而不需要用户拥有拍摄速度、光圈设置等摄影技术的正规知识。通过采用笔写输入、手势和草图,Apple Newton个人数字助理(PDA)和KidPix儿童绘画包等产品在与目标用户的交互层上也是非受限的。还有很多例子表明了这种持续的远离命令驱动的计算机交互,而朝向协作的系统的趋势。在这些系统中,用户指明高层意图和约束条件,由计算机来处理低层操作并支持用户构成新的意图。 这些非受限的例子变得越来越普遍,并且也有了某些方面的研究,例如在协作设计中采用草图(ScrivenerClark,1994 )等。本论文遵循了这样的研究思路:致力于解决怎样将非受限想法注入计算机界面的设计和计算机系统的内部操作,采用何种内部表示结构较为合适和这些系统潜在的优缺点等问题。该方法专注于解决的问题是,虽然有一些进行中的研究因在输入和输出中使用草图而著名,但仍趋向于依赖一个粗浅的前端草图界面,并采用基于传统的软件工程意识形态来设计其潜在的内部表示。 众所周知,自从达芬奇时代开始,草图就是一种使得思维自由运转的有效助手。然而,对如何在外部(externally)(作为输入和输出的媒介)和内部(internally)(用来存储和操作其上非受限表示的潜在的内部表示)有效地使用草图的分析却非常少。一个5岁的孩子画的阳光下的小屋。这可以被几乎所有拥有相同文化背景的成人识别,也同样可以被5岁以上的儿童识别。很多不同领域的研究,例如识别和视觉,都致力于解答最常见的为何将这幅图像识别成一间房子?的问题。本文则关心怎样将表示的基本元素(它的要点(gist))有效地应用到计算机界面设计和其潜在的软件和表示结构中的问题。 本论文的出发点是提出一个与特定类型的非受限界面有粘着力的结构,来使研究和结论更加细致,也用来描述分析和构造这样一个非受限界面系统的方法学。本论文不试图解决一般非受限界面中更广泛的问题,但却专注于一种类型的非受限界面以图形草图输入和输出的形式实现非受限的基于个人计算机的系统。 本论文研究特定类型的非受限界面将如何促进非受限或者更加随意的用户和计算机之间的交互模式。更多地,在这种非受限界面中采用的内部表示有时可以提供一种有用的数据表示的结构,它关注意图的本质或表示状态而不是更受限的参数集合。 我们来考虑一下受限和非受限在字典中的定义。简明牛津字典把受限(formal)定义成根据规则、惯例或礼节来使用、实行或保持(used or done or held in accordance with rules, conventions or ceremony),精确的或对称的(precise or symmetrical),巡例的,没有灵魂的形式(perfunctory, having the form without the spirit)和关心(外部)形式或表现,尤其是与内容或本质不同的(of or concerned with (outward) form or appearance, esp. as distinct from content or matter)。对于非受限(informal),字典给出的解释是缺少礼节和仪式(without ceremony or formality)和日常的,正常的(everyday,normal)。通过这些定义,我们可以把非受限界面认为是违背传统规则的,不要求精确的,并以某种方式捕捉用户试图表达的本质。 我们注意到有必要考虑一下人类构思的过程,因为意图是依赖于上下文(context dependent)的。在一篇上下文中有意义的内容在另一个上下文环境中可能是不相关的,或者有不同的意义。例如,一个非受限吊桥设计师软件包可能嵌入与非受限的花园设计程序中有不同含义的结构、约束条件和附件等成分。所以,不存在统一、全面的非受限界面系统,而只有适用于不同领域的不同系统。同样在一种特定的非受限界面系统中,也要一直关注上下文信息,系统的目标和要求的细致程度。 计算和界面中的非受限 非受限本身是一个范围很大,有时还很含糊不清的词。这一节将论述本文致力于解决的非受限类型。 在不同的系统中,放松受限的约束条件限制是一个很有趣的题目。这意味着不同类型受限系统将具有不同的内容。例如,通过公式化数据结构的体系结构,一个系统很可能是受限的。或者,通过严格的操作,它在用户看来可能是受限的。一个坚持按照惯例使用的系统也会被用户认为是受限的。 通过放松受限条件进而增加非受限程度的方法,并不能在所有的系统中起作用。例如,究竟什么意味着非受限的数据结构是不清楚的。然而根据本文,非受限可以被应用到计算机系统的输入和输出交互中去。传统的输入系统是受限的,用户被限制在可选择的交互中。物理上,键盘(带有有限数量的按键组合)和鼠标是GUI(图形用户界面)窗口系统等基本的表示界面中仅有的物理界面。 本论文关注于用户界面设计中非受限的应用在传统的图形显示上进行类似草图的输入和输出。这里,草图(sketchiness)是非受限的应用。采用草图的输入输出是非受限的,它是人们熟悉和方便的交互方式,并易于适应自然的、有创造性的处理。有时,用户通过非受限并熟悉的草图与计算机交互要比采用受限并传统的鼠标、键盘和显示器更加悠闲。草图用在本文也是非受限的,因为草图主旨的潜在表示(或要点)允许输入数据和输出表示的不精确性。这种看起来肤浅的前端用户界面对系统采用的内部表示和终端用户的操作方式及感知都展示了有趣的结果。例如,想象一下某人被同事询问如何找到开会办公室的情景。如果两个人在同一个房间,这种交互的一个可能的方式是,一个人用一张纸为另一个人绘制一个粗略的地图。这个地图将以自由手绘的方式显示重要马路上的基本元素、交叉点、拐弯处等等。如果情景中两个人的距离很远,这种解决方式就变得很困难,我们需要利用计算机(例如采用基于文本的电子邮件系统)来实现这种交流。完成这个任务的其它方式可能是(a)在纸上绘制草图并传真它,(b)在纸上绘制草图,用文档扫描仪把图像扫描到计算机,把图形二进制图像(例如,一个jpeg文件)作为电子邮件的附件,发送给同事,(c)采用Visio(Microsoft 2000)等绘图包,用鼠标、菜单选择等传统工具创建一个电子地图的图像,并电子邮件传送这个文件等等。 现在有两点与完成该任务的第一种方式例如在纸上草绘地图,而其本质上是非受限的有关。一是交互的实际模式熟悉的笔录纸现,它具有不精确的手绘线条。绘制的多好都是无关紧要的,只要它能表达基本的意图(要点)。根据本文,这就是非受限界面中第二个基本的元素内在的要点或表示的意图。同样地,只要表示的基本意图是相同的,我们并不在乎粗糙的项目中确切地输入了什么信息。所以马路的直线被画的多么精确并不重要。他们可以被不同的人,以不同的方式绘画,而仍然在总体地图的上下文中保留同样的意图或要点。 非受限和非受限界面的定义 在本文中,非受限意味着用户与计算机交互方式的放松和计算机保持其内部状态和数据表示的方式的放松。换句话说,用户一般通过使用鼠标、键盘和显示器来与传统的桌面计算机进行交互。与计算机和其上运行的软件程序的交互存在着受限的交互次序。例如,用户需要完成特定序列的操作来创建word文档,输入文本并将其打印等等。类似地,为了建立一个指示怎样到达某特定位置(可能是某人的办公室)的地图,通常要完成一些受限的步骤来运行适当的软件包,用鼠标和菜单选择等输入线条和其它绘制的对象。完成任务的更加非受限的方式可能是,用户可以用铁笔无约束地直接在计算机上绘制草图,或者通过手势来使用计算机的操作等等。 在本论文中,非受限界面意味着可以适应在输入协议和输出表示中的不精确的界面。更多地,非受限界面会使用与状态或数据意图的本质更有关联的内在数据表示、状态等等。例如,考虑创建地图的例子。受限的方法和界面会导致受限的数据结构,或者说,对象结构的地图显示。非受限的方法和界面会导致一个抽象的地图表示,它包括所有必需和有关的数据,但在重构时不一定会产生相同的地图。然而,同一个人以同一种方式草绘的两幅地图不太可能是确切相同的位图图像,但对这个人却表达了确切相同的事物,所以再造的图像依旧表达了确切(exactly)相同的认知信息。 注意到虽然界面本身是非受限并无拘束的,它采用的内部表示的实际结构(structures)可以是受限的。那就是说,界面和内在表示的对象是非受限的,因为它们有非受限的认知解释(例如要点)。然而,用来表示这些非受限对象的数据结构本身却是受限的。例如,在编程术语中,它们可能是用C++对象,或框架,或一些其它受限的数据表示方法构造的。 关键概念 在用户界面设计和交互中使用非受限这个词时,我们指的是能适应(tolerant)用户输入(用户有选择动作的灵活性)并展现输出的可变性(variability)的界面。在非受限的交互中,输入事件(例如菜单选择)和抽象机中的状态改变之间存在一个多对一的映射,而在抽象机状态和输出表示之间存在一个一对多的映射。例如,多个简单手绘直线地图的实例映射到一个抽象表示,本文称作非受限直线(informal straight line),而一个表示可以依次再生出多个再造的粗糙(例如看起来像手绘的)直线的实例。 本文的目标是提出一个定义用户和计算机之间认知的非受限交互的框架。交互(interaction)意味着用户和计算机之间的处理流,它依次由交互的外部和内部表示所定义。外部表示(external representations)指的是计算机屏幕上显示的图像(作为用户输入或显示给用户)等。内部表示(internal representations)指的是计算机存储信息的方式,这些信息描述了被操作、显示或传送等形式的对象。考虑一个下拉菜单系统;这里用户被限制在有限的可选功能集中,其中每个功能都映射到一个状态,而每个状态被界面显示成一个或有限数量的表示选择。相反的,非受限界面会将一个可能的无数个不同的输入事件映射到抽象机的一个状态,而这个状态是交互的要点(gist)。要点(gist)将在下一节中进一步论述,指的是状态意图本质的表示。抽象机的每个状态可以在界面中以多种形式表示,这由内部表示的约束条件和输出设备的限制所控制。 所以,本文研究了将非受限的概念应用到用户界面和内在表示及操作结构中的想法。如果只是应用到用户界面的前端,这种非受限在某些程度上可以构造得粗略一些,但这个概念也能够用于更深的表示层。 术语的深层定义适应性、可变性和要点 在用户界面设计中非受限的背后有三个关键概念输入的适应性(tolerance),输出的可变性(variability)和表示的要点(gist)与系统的输入状态、输出状态和内部状态等三个阶段相对应。适应性(tolerance)指的是允许不同的输入功能映射到同一个内部表示状态。可变性(variability)指的是一个内部表示状态能被映射到输出机制的许多方式,却不表示具有不同的意义。 要点(gist)指的是状态意图本质的表示。那就是说,在不具有适应性和可变性属性时,对一个状态最简单和最高层次的抽象。例如,一条粗糙的手绘直线的要点就是一条直线(straight line)的概念(concept)。这很难识别和度量,但通过一些方法可以做到这一点。例如,与判断它的输入和输出状态(可能是不同的)一样,确定表示状态意图的本质仍然是相同的。更多的(在给定上下文中),许多对象有不同的视觉表现,但却被人类判定具有相同的意义,非受限界面系统将把它们映射到一个内部表示状态上。类似的,这个内部表示状态将被依次映射到视觉上不同(像草图一样)的输出,而被人类判定具有相同的意义。 例如,想象人们在纸上手绘的一条粗略的直线。如果人们被要求画许多粗略直线的实例(可能在分开的纸上),如果细微分析起来,它们中任何两个都不可能精确相同。然而,对于创建它们的人而言,每条粗略直线都有一个确切相同的意义 一 条直线。所以在这个例子中,输入表示的要点就是直线。输入的适应性指的是并不关心输入表示的确切方式所有相似的粗略直线都表示直线。所以,输出的可变性没有显著的影响表示的本质要点已经被成功传达。同样,适应性和可变性的特性并不影响要点。虽然一些粗略的直线可能被描述成曲线或斜线,去掉相关的图像特性的任何元素(例如波动)将只剩下图像要点的最基本的元素,例如直线。 所以,通过输入适应性的应用,在非受限界面中有多种(有限的)方式将表示状态输入到计算机系统中,且认为所有的方式都具有相同的表示。类似的,通过输出可变性的应用,也存在多种(有限的)表示计算机状态的方式,并且也认为所有的方式都具有相同的表示。 在内部,也存在多种(可能是有限的)表示状态要点的方式,但对每个要点,每种实现只能采用一个内部表示。那就是说,存在很多可能的非受限界面形式,但在每个特定的实现中只能使用一个。 表示等价的层次 根据本文,表示等价(representational equivalence)有三个层次: 1) 两个表示是真等价(truly equivalent)的,如果它们之间没有可度量的差异。 2) 两个表示是认知等价(cognitively equivalent)的,如果它们之间存在物理差异,但用户看起来却是相同的。 3) 两个表示是认知非受限等价(CI-equivalent)的,如果它们之间有用户能够察觉的物理差异,但它们对用户来讲仍具有相同的意义。 考虑图2中绘制的小屋草图的例子。 如果这两个草图是彼此的精确象素位图复制,例如通过复印或剪切和粘贴操作,那么它们是真等价的。 如果小屋草图的两个稍微不同的版本,被一个用户在不同时间观察并认为是相同的,则它们是认知等价的。在这种情况下,用户并没有意识到两个版本之间实际上微小的差异用户看来它们是相同的。 用户在同一时间(甚至在不同时间)同时观察小屋草图的两个稍微不同的版本,如果用户认为它们表达了所有的意图并在特定的上下文中企图表达相同的原始图像(或要点),则它们是认知非受限等价的。在这种情况下,用户意识到两幅图像是有略微差别的,但认为这在特定的上下文中并不重要(在认知的意义上)它们具有相同的意义。 非受限界面和交互的一个例子 作为例子,假设我们有一个用户界面,它构造在基于笔式交互的草图、手势输入和类似的在显示器或液晶板上的草图输出的基础之上。这项应用可以是一个视频白色书写板系统,在因特网TCP/IP连接的两端各接有一个这样的单元。这样的两个设备可以相隔几英里,甚至远在地球两端。 假设一端的用户想传达对工作中新桥梁设计的一个粗糙想法。一个简单的视频白色书写板系统将允许用户用铁笔在触摸敏感的面板上输入桥梁的象素位图的图形表示,并将它传送给远方用户。 这种系统可以采用传统的识别和对象系统,将草图分解成一些本身已识别形状的集合。稍后,将把它们传达给远方用户,并以能够提供原始图像相似显示的方式重构。 同样也可以设计一个非受限的视频白色书写板系统。用户草图输入最初的设计,非受限的系统将把粗略的草图分解成低层对象的本质上非受限的部件,例如直线和长方形等。如果适用的话,系统将把这些部件构造成高层的结构,例如箱形梁、支撑和支柱等等。 这里,在对象系统(本文指受限的系统)的草图识别和提出的非受限系统之间有一个差别。根据文献,受限系统按传统的线条处理对象识别。类似地,非受限系统以某种方式处理对象识别,但具有其基本构造的输入适应性与输出的多样性(可能是故意的),并按照基本的表示将草图对象分解成它们的要点。 所以虽然一个或一些不同的用户可能输入略微不同的象素位图,但系统将把每个输入草图都映射到相同的桥梁类的相同内部表示。这有一个输入适应性(tolerance)的例子。例如,一些用户输入了许多不同类型桥梁的草图。这些桥梁可能被识别并分解成它们基本的类型,例如吊桥或可开闭的吊桥等等。所以如果一些用户创作了吊桥的草图,系统将把它们都分解成基本的类型,或它们的要点。作为另一个例子,如果一幅在旧金山海湾地区的金门大桥的草图被表示成箱形梁的类型却是不怎么好的。另一方面,很少有人知道金门大桥的跨度与其支撑塔高度的确切比值。虽然实际的尺寸可能是不精确的,但仍可能创作许多令大多数人信服的桥梁的显示。 那么沿着电线传输的将是内部表示(线段、框和支柱等等)的记号(token)、它们的关系和非受限的本质表示,而不是象素坐标流。这是一个表示的要点(gist)的例子 这些记号将在远方用户的屏幕上依次被重构。 在这一点上,可以选择怎样正确地将表示映射到输出图像(可变性variability)上。这可以采用受限的表示法,类似于采用直线、完美曲线等的工程绘图。然而,创作者却不会认为这与输入信息是认知非受限等价的,因为它表示了不同的意义。例如,一幅工程绘图可能被理解成是3米长的箱形梁,而创作者的用意确实未定义长度的箱形梁。 正如本文中描述的,输出的可变性是非受限界面操作中一个至关紧要的部分,因为这种可变性增强了表示的预期意义。如果命令输出机器(可能是一个计算机程序)重新绘制图像,那么每个实例都将会有(故意地)微小的差别。然而,每个细小差别的图像却仍然传达了相同的要点(当然是在正确工作的系统中),并且用户被呈现多种表示后将能够将表示的要点从非主要的特征中区分出来。 所以计算机系统应该以它本身粗糙的类似草图的显示来描述表示,或者采用基于它自己的内部描绘引擎算法,或者模仿用户自身的风格。以这种方式,在存在输出可变性(variability)的交流机制中,要点将保持一致的映射函数。 非受限界面成功的度量 注意到有效的非受限界面系统中基本的原则是,被传递图像的结果要点或意图与原始显示的要点在认知上是无法区分的。那就是说,图像是认知非受限等价的(CI-equivalent)。例如,一张粗略的小屋草图在重构时可能会显示原始设计中所有的内在关键特性(crucial characteristics),例如门和窗的个数和烟囱的大致位置等等。注意到这是依赖于上下文的。显示给釉工的粗略的小屋草图可能在窗户设计和玻璃板上描述得更加细致。而显示给建筑师的草图应该更加关注房屋类型(可能是斜屋顶)的总体基本元素和烟囱的数量等等。 本文提出了非受限界面中度量认知非受限等价(CI-equivalence)的两种方式:a)用户评价分析和b)反馈循环 用户评价分析 在用户评价分析中,可以建立一个由许多人组成的中心组,在适当的控制下对他们显示原始的和重构的图像。如果大多数人认为图像是认知非受限等价的,则它是一个成功的图像非受限表示集合。该定义也是自由和非受限的,这次认知非受限等价度的度量是用户满意的程度。注意要考虑两个独立的参数:非受限程度(level of informality)和认知非受限等价(CI-equivalence)。并注意如何应用边界条件。如果非受限度(degree of informality)是0(例如一个受限系统),也就是说在图像和重构的结果图像之间没有任何差异,那么认知非受限等价的用户等级应是最大的,因为结构图像与原始图像是精确相同的。另一方面,如果非受限度非常高以至于认知非受限等价等级是0的话,那么所有的表示都将扭曲到难以令用户信服它们是同样的图像。 用户满意程度随着非受限度的增长而改变。然而,在本文定义的非受限界面系统中,我们提出在非受限度非零的情况下,用户满意也可以达到最大值。因为只要图像是认知非受限等价的(虽然在显示的物理感觉上并非实际相等的),对用户来讲要点就没有丢失。 然而在某点上,随着非受限度的增长,结果图像的变形程度也随之增长所以,用户满意将下降或者完全不合格。 反馈循环 在反馈循环系统中,结果输出的图像再次被反馈到非受限界面系统作为新的输入,因而重新进行循环。 根据定义,具有认知非受限等价的系统将会创建一个与其输入意义等价的状态,这个状态作为输入反馈后也会产生一个等价的输出。在这种认知非受限等价系统中,转换函数实际上是一个恒等函数I,所以无论循环多少次,图像总能够被识别。 在输出图像中当然可能(并确实)存在可变性,因为这是非受限界面的定义。但这是非受限界面系统中的一个关键部分;尽管输出图像不同,但它却表示了系统的状态。实际上,输出中故意的可变性正是这种非受限界面中一个重要的方面。例如,在计算机图形显示器上输出一个小屋草图的许多图像实例,它们可能都有细微不同的象素位图或向量跟踪。但非受限界面在保留所表示的要点方面的成功是,它们对所有的目的和意图都表示了相同的概念例如,一种特定风格的房子与其基本属性的集合。在这种情况下,基本属性可能是窗户个数、烟囱个数和走廊是否有柱子等等。所以对不同的用户需要有不同的认知非受限等价界面就是说这种系统是依赖于领域和上下文的。 再次注意一下到这种非受限表示是依赖于领域和上下文的。例如,对同一栋房子,房地产经纪人、建筑师和小孩子可能会创建截然不同的草图显示。同样,同一栋房子的草图也会依赖于它是否是用来卖房子、设计房子和用来画卡通图画等不同功用而不同。 所以对回送测试(loopback test)来讲,非受限界面系统成功的度量是通过或者不合格。一个成功的非受限界面系统将总会是一个认知非受限等价的恒等函数,并且可以无限期地循环下去。在一些循环中的失败意味着非受限界面不是一个认知非受限等价的恒等函数,并且要点在输入时无法恢复。 做到非受限了吗? 一些系统已经展示了非受限界面的一些特性。例如,在环球网站中使用的超文本标记语言(HTML)的结构允许了输出的可变性决定如何准确地放置文本和图像,以及如何显示按钮等控件的任务由网页浏览器(例如NCSA Mosaic,Netscape Navigator或者Microsoft Explorer等)设计者负责。 相对较新的Java编程语言也具有非受限的元素。它的平台无关性(independence)实际上导致了它表示风格的平台依赖性(dependent),如同HTML一样,也就是对输出的解释和可变性开放。平台无关性和在虚拟机(Java VM)上的执行导致了执行者对一些操作模式的解释的变动,例如按钮或编辑框等精确的功能小部件。 那么,为何需要非受限界面?在日常使用中,非受限这个词暗示缺少精确性,和放松社会及语言的习惯。在本文内容中,使用非受限是为了表示大致的想法和交互。非受限的优点包括可以表达模糊或者部分理解的想法,也能够发掘概念的本质而无需受其最终格式的约束。草图提供了一个可以构造思维的框架。非受限界面与人机交互中的草图相似,为了给用户提供更加宽松的环境,它放松了当前用户界面中传统输入/输出的约束条件。 非受限图 考虑电子数据表的情况。请求显示数据元素之间的关系图可能导致一个虽然在图形上满意,但却过于复杂和拥挤的视觉图画,而且也无法给出重要的数据关系的基本元素。通过非受限草图来显示输出,只给出信息的重要要点,用户被告知来源于深层潜在关系的关键信息,但却不被所显示信息的复杂本性分散精力。所以信息的要点可能是在功能不同的方式上潜在的趋势。但是所显示图表中故意的粗糙(输出可变性)将意味着用户不可能读入过多的细节,或者说两条线交叉的精确点。 某种特定类型的非受限界面系统的潜在优点可以以多种方式显示。例如,在适当的上下文中,非受限的类似草图的输入输出方法(例如用户在板上用笔输入信息,而计算机在屏幕上产生类似草图的图形输出)可以使用户容易与计算机交流要求和信息,也使计算机表达了正确的细节程度。这可能就是通过展现给用户过多的信息而却无法给出信息的本质要点的情况。 赞成或反对:非受限vs一致性(uniformity)和稳定性(stability) 我们并没有声称非受限的应用对设计用户界面和它们内在表示来讲,总会是最好方式。当然存在一些非受限(或它的一个方面,可能是输出的可变性)不受欢迎的情况。例如,在上面设计桥梁的例子中,桥梁被构造以后所有的用户都会希望,它是从细致的绘图和通过严格测试和分析的设计图中构造起来的。 另一方面,正如1.4.3小节中所描述的,在设计桥梁的例子的早期阶段,能够自由快速地进行他们未完的设计,对设计者来讲将是更有用的。而追踪他们喜好的构造却给出了对环境或领域的限制和约束。 把非受限应用到界面设计和版面设计中,从用户和商业考虑的角度有时还会有一些缺点。从用户的角度来看,为了构造并保持一个程序功能的智力模型(Norman,1986 ),程序的内部结构需要一定程度的一致性和稳定性。 研究非受限界面的方法学总括 本文采用了一种启发式的方法来研究在界面设计中应用非受限的一些概念和范围。开始时可能认为只能在高层的界面层本身的设计中应用非受限。然而,把类似的技术应用到低层的内部表示层也会有一些好处。 最初要考虑的问题是如何产生看似逼真的草图对象,例如基本的粗糙直线段(RSL)。采用不同软件算法的试验给出了以不同方式表示令人信服的线段的有效性等等;成功的度量标准是人眼看起来一条结果线段有多像人类画的。通过改变算法的相关参数,有时还会去掉表面上无关或冲突的参数,能够创建或多或少令人信服的线段。该处理最终导致了非受限直线段的表面上成功、有用的表示结构,并且此结构具有适合其它非受限对象的表示的潜质。 例如,我们发现利用抖动(shakiness)和循环(period)等非受限维(informal demensions)是有用(即结果是一条有效逼真的粗糙直线段)的。却证明了和谐(harmony)等其它属性的用处很少。这些非受限维将在3.4小节中细致描述。 可以将这些原始对象的多个实例组合成为更加复杂的对象;例如,多条直线段是正方形、长方形、三角形或栅格等更为复杂的结构的基础。这需要约束条件(constraints),特别是连接(attachment)等额外的参数(Leler,1988 )。在本文中连接是约束条件的一种简单形式,例如一条非受限粗糙直线段的某一端受约束限制,而与另一条粗糙直线段的一端(或者可能是更加说明的中点等非受限约束条件,而其可能不是确切的中点)相连。作为一个例子,在图4(1)中线段B与线段A的中点(或者以非受限的角度,在大约是中点的地方相连)相连,角度(大约)是直角。所以,在(2)中如果线段A旋转到某个位置,必须满足(虽然存在约束条件的传播)线段B仍然在A的中点结束,并(大约)以直角连接。应用约束条件免去了对受限对象直接应用操作的需要例如,不需要对线段B应用旋转操作。 采用该方法学,可以建立一些知识来了解如何以有效的方式创建非受限对象表示,并识别非受限认知维形式的参数集,而非受限认知维可以作为表示的基础。在适当的地方使用这一点,我们可以建立一个体系结构,用来表示这种非受限表示的结构,进而提供在用户界面设计中实现这种类型的非受限的基础。 非受限具有多种特性,本文只探讨了其中的一种即输入适应性和输出可变性,这在人类草图似的具有非受限表示的内在结构的输入和输出形式的应用中举例说明。非受限的其它构想也是可能的。例如,有些人可能认为类似人类的、多样式的、有延展性的和不经训练可用的系统是非受限的。把条件的应用限制在计算机界面并不是我们的意图。然而,承认本文以非常特殊的方式使用非受限界面这个术语是很重要的。 虽然我们并没有声称引入非受限是设计界面必需的较好的方式,或者要求界面全部按非受限的方法重新架构,我们声称传统的(更加受限)界面系统和它们内在的受限表示有时缺少其功能操作的模式。这些不足有的可以通过在界面、交互模式和整个用户经验中应用非受限的概念来解决和补救。 考虑自从有广泛使用的计算机系统的概念以来,用户界面设计的历史。早期的具有无声终端的大型计算机,仅仅只允许用户和计算机通过慢速的打字(TTY)键盘和监视器进行交流。后来引进了原始的图形显示。从开始的类似牵牛星的机器,发展到现在普遍的IBM PC机以及它的兼容机,在全球引入了具有快速增长的本地处理能力的桌面个人计算机时,图形显示仍然流行。 在这些系统中,用户被高度限制在交互流中。输入和输出是非常受限的:用户只有一种输入法,一个键盘。用户也被限制如何与计算机交流,例如不得不使用不可思议的命令(例如Unix中的 ls -al 或 rd )集,而必须精确地遵循它们的语法以防止交流故障(Banahan Rutter,1982 )。 类似地,对用户的输出也被紧密地限制:不只在物理介质(文本字符和位图的由任意等数量行和列组成的任意长方形栅格)上,因为其电动机械的设计原则,而非人文因素的约束,也在命令语言输出的语法上。用户要继续不得不使他或她的操作方式(modus operandi)适应计算机。当然,面向人类的表示不一定要与非受限表示相同,但表示中的非受限是的得到面向人类输出的一种方式,并且如果使用正确,可能是非常有效的。 在最初Xeroxs PARC的Star开发小组的工作原理稍后被产品开发在Apple的Lisa和Macintosh计算机和微软的Windows操作系统中采用之后,图形用户界面(GUIs)的出现已经取得了进步。然而,从非受限界面的角度并没有多少改变;输出也无疑是更加形象化的形式。尽管代表性地,采用传统键盘进行的输入通过鼠标增加了一个另外的维。但是进一步调查起来,用户仍被有限的命令(下拉菜单系统)集所限制,并且不得不接受表示系统所提供的一切。界面是传统操作系统结构上的一个外表;在微软Windows的情况中更是如此,因为它是一个在16位真实模式的操作系统上按前十年的设计构建的被保护的模式图形环境。 改变的前期发展 Sketchpad(Shtherland,1963 )和ThingLab(Borning,1979 )对本文有一定影响。它们都是允许用户输入的高度表达和控制的图形界面系统,并具有强大的内部操作引擎。它们展示了图形界面、面向对象的设计和开发、以及采用约束的概念的发展道路。本文中它们都展现了一定的输入适应性和较少的输出可变性。但是它们在支持本文采用草图作为输入机制的中心主题上是有帮助的,并且将此扩展到故意保持类似草图形式的输出。这导致了对内部表示结构的需求的分析,在宽松地基于Sketchpad和ThingLab(在它们约束和对象的使用中)的同时,通过实现增加认知维(cognitive dimensions)和原型(prototypes)等非受限类型的需求,加强它们的构造。 Ivan Sutherland(同前)在MIT的林肯实验室的TX-2计算机上开发了世界上第一个真正的图形用户界面,Sketchpad。这个基本工作为大多数现代的人机界面提供了基础。他的系统基于光笔、一排开关和CRT显示,是第一个交互性的计算机图形界面。有趣的是,尽管名义上带有草图,Sketchpad本身很大程度上并不是草图的。虽然采用手持光笔来输入,系统却被设计成可以产生带有完美线条和拐角的高度精确的绘图。它在采用集合对象的约束条件的方面上同样领先。 Alan Borning的ThingLab(同前)是一个用面向对象程序语言Smalltalk开发的基于约束的模拟系统。ThingLab是一个受到Sketchpad严重影响的图形系统,被设计成允许用户在对象之间设立操作和约束,并模拟简单的物理实验。ThingLab没有嵌入任何特定领域的知识,但却提供了创建应用的工具和机制。 非受限界面和人机交互传统的文献 人机交互学科已经从认知和计算机科学、心理学、生物工程学以及其它研究和开发领域中很好地建立起来。这个多学科的科目的学习范围很广,吸引了生活工作中所有行业的研究者、操作者和用户。它的基本概念现在已被很好地理解和证明,并且存在很多的人机交互原理(例如Preece,Rogers,Sharp,Benyon,Holland Carey,1994 )的刊物。Preece等人在书中讨论了现今人机交互的传统方面:认知框架、感知和表示、智力模型、界面比喻、输入、输出、交互风格以及设计方法和技术。他们(同前)陈述了人机交互是关于设计可以支持人们有结果并安全地开展他们的活动的计算机系统的观点。他们指出Donald Norman(Norman,1988 )识别了两个帮助保证好的人机交互的关键原则:可见度(visibility)(控制需要是可见的,并且具较好地映射到它们的效果)和提供(affordance)(控制应该建议,例如提供它们的功能)。 Preece等人(同前)强调了七、八十年代大西洋两岸研究方法的分歧。他们指出美国的先驱更多地关心计算机如何丰富生活,使得它们更加简单,并帮助创造和问题解决。而同时欧洲的研究者却在构造可用性(usability)等人机交互的理论以及操作标准和评价度量的开发。 他们(同前)定义了对人机交互有贡献的学科清单:(a)计算机科学,(b)认知心理学,(c)社会和组织心理学,(d)人类工程学和人文因素,(e)人工智能,(f)语言学,(g)哲学,(h)社会学,(i)人类学,和(j)工程和设计。他们继续强调了这样的事实,即图形表示(graphical representation)是界面中传达信息时采用的主要方法,并且在与设备和系统交互时,智力模型(mental models)对人们很重要。对此已经开展了一些研究(例如Rogers等人,1992 ),并且一般的假设是人们确实使用某种类型的模型,但那通常是不完全和模糊的。这对人机交互中的非受限接口来讲是一个很重要的问题,其中输入适应性(tolerance of input)和输出可变性(variability of output)可能被故意用来试验与系统的用户(可能是模糊的)智力模型更加相符。概念模型对非受限界面来讲也很重要。设计模型、用户模型和系统镜像(Norman,1986 )是概念模型的经典体系结构。这里,为了避免引入与用户意图不符的意义,非受限界面系统中系统镜像的内部表示结构是故意非受限的。 Preece等人(同前)也讨论了输入设备,传统的是键盘和鼠标。他们接着讨论了笔输入设备,但只存在于手写识别和手势识别的上下文中。本文描述的非受限界面在初级阶段采用笔输入:正如一支普通的表达草图输入的铁笔。输出设备是输入/输出平衡的另一半。他们(同前)讨论了在人机交互中使用的传统输出设备:图形用户界面(GUIs)、声音、虚拟显示和多媒体。非受限界面(正如本文所描述的)采用传统的图形输出,但形式却被设计来避免传达所表示的对象中没有的信息。 作者(同前)讨论了交互风格,例如命令登陆(command entry)、菜单和导航系统(menus and navigation systems)、自然语言对话框(natural language dialogue)和直接操作(direct manipulation)。本文提出的非受限界面没有假设新的、独特的交互风格:仍采用传统的(只要是菜单)交互风格,虽然也有机会使用直接操作。 其它的工作,例如Carroll(1991 )和Thimbleby(1990 )也陈述了人机交互的基本原理:输入(input)、输出(output)的基本循环以及内部的模型(models)和表示(representations)。 图形人机界面的人文因素已被Maguire(1985 )分析过。设计者可以利用一大群的输入输出设备和设施。在本文中,这个主题与非受限界面有关,正如利用类似的输入技术一样,尤其是笔绘(inking)。本文讨论了绘制的技术: 1. 点测绘(point plotting)(通过指明起点和终点绘制直线段); 2. 多边形填充(polygon filling)(提供指明内部的所有点来填充一个闭合多边形); 3. 擦除(erasure); 4. 自动测绘(autoplotting)和笔绘(inking)(象笔一样留下电子墨水的痕迹;手绘草图能够以此种方式完成); 5. 橡皮带弯曲(rubber-banding)(自动从起点到终点拉伸直线段); 6. 网格断裂(grid snap)(将所有输入连接到背景网格上最近的点,从而使得创建精确的绘图更加简单); 7. 符号和图表库(libraries of symbols and figures)。 有趣的是,Preece等人(同前)包含了对受限和非受限组(formal versus informal groups)的论述。越来越多的人相信非受限的、自发的交流,如果不比受限的交流重要的话,与受限的交流同等重要。然而在这里,非受限的这种用途并不是直接相关的。本文中非受限草图的使用涉及到交流中采用的表示,而不是交流协议。作者(同前)也考虑到在想象设计中使用草图(sketching)。他们(同前)声称草图技术对开发所有的设计想法是有益的,并建议采用视觉自由讨论(Verplank,1989 )来开发不同的设计。很明显,这强调了纸笔作为一种产生设计的快速方式的价值。然而,这种处理中贯穿的思想可能是规范的一般层次,并且系统不应该强迫用户指明非他们本义的意义,在这个意义上,它是与本文相关的。非受限界面对这个问题提供了一种方法。 Dix等人(Dix,Finlay,Abowd Beale,1993 )论述了多感觉系统、语音、手写和手势识别以及动画等新兴技术。他们对手写识别的介绍主要集中在笔式系统中的字符识别。但是他们接下来声称如果我们要从乱涂乱画中设计一个组织者,我们可以决定丢掉键盘我们能考虑其它所有的方式来与系统进行交互我们可以决定使用绘图来告诉系统做什么不同的输入设备提出了许多不同的界面设计和交互的不同可能性。对这里开发的非受限界面,例如主要基于采用草图作为输入和输出的界面系统,这是一个促进因素。也就是说,此界面将有广泛的应用。 传统的人机交互设计框架 例如采用交互工作(interaction tasks)、心理方面(psychological aspects)、设计(design)和评价(evaluation)的阶段(Preece Keller,1990 )。 草图识别的使用是计算机图形交互技术领域中研究的主题。例如,Foley等人(Foley,Wallace Chan,1984 )描述了一个机制,使用草图识别系统来决定用鼠标、写字板或者以类似草图方式的光笔等设备输入的命令。 图5说明了用这种方式,可以在草图中绘制手势(gestures)来提供命令和控制计算机系统的一种方法。奇怪的是,他们(同前)采用受限的图表(例如直线)来说明他们的草图手势,而不是草图手势的真实例子。这里与本文相关的是采用交互的一种非受限方式草图作为提供计算机系统输入的一种方式。 在研究者们调查用户之间非受限交流和交互的其它形式的本性的文献中,存在着许多实例,虽然它们与本文并不是直接相关的。这在本文上下文中是感兴趣的,因为它帮助建立了一个可以放置所提出研究的框架。 Fish,Kraut和Root(1992 )对视频作为一种非受限交流的技术进行了评价。他们声称组织中的协作以非受限的交流而旺盛,因为非受限交流是频繁的、交互的和有表现力的。作者的重心是他们的音频/视频技术系统,CRUISER。他们推断桌面视频会议的某种形式在对地理上分布的组织者保留非受限交流渠道来讲,是有用的。 Hollan和Stonetta(1992 )也认识到了非受限交互的需要。他们声称在研究者之间随着距离的增长,协作的可能性会减少。他们接着声称产生的原因是因为需要大量的非受限交互来创建和保留工作关系。 在Xerox Palo Alto研究中心的研究者们(Elrod等人,1992 )开发了一种叫做Liveboard的交互视频白色书写板系统。该系统给基于铁笔的组交互提供了一个计算机支持的白色书写板系统。用户可以交互、控制并按照惯例地注释(用草图和手写)显示的计算机图形。一个活板应用Tivoli稍后被用于检查非受限工作组会议(Pederson等人,1993 )。这在Moran等人(1998 )的论文中被进一步探究。该文中作者利用了使用自由形式的电子白色书写板比喻来使用户能够用笔式涂写和编辑进行交互的思想。 Hewlett-Packard的Btistol研究实验室的研究者们(Whittaker、Frohlich Daly-Jones,1994 )在工作场所研究了非受限交流。这时他们意味着它是简洁的、未计划的并频繁的,支持许多不同的功能:工作相关任务的执行、小组活动的共同任命、办公室文化的传播和小组建设等社会功能。作者研究了例如视频和音频系统、glance系统和漫游会话等(通常是远程的)非受限交流的方法。然而,他们并没有将草图(可能在白色书写板或餐巾上)作为非受限交流的一种方式来研究。他们以一个关于非受限交流的 绝对简短(brevity)的想法结束。他们声称这可能是因为,在受限交流的情况下,如果参与者不确定他们可以经常见面的话,他们可能将多个问题精简在一次交互中。然而,在非受限交流的情况下,熟悉的交互者知道未来的会话是可以保证的。 Zhao研究了基于手势的图表编辑(Zhao,1993 ),对手绘草图图表的识别给出了一些看法。其它大部分方法或者使用手势识别,或者使用视觉语言分析器,而该作者提出了手势识别的一个递增范例和为模式识别和图表分析的一种共同操作的交流。他(同前)确定了需要低层识别器(LLR)和高层识别器(HLR)LLR工作在单笔划层次,而HLR将这些基本符号集合转换成编辑命令。这在本文中是很重要的,因为它稍后帮助为非受限界面系统展示一个框架。 非受限界面和计算机视觉 本文并不想包括形状识别的经典题目和来自计算机视觉(Marr,1982 和Marill,1989 )的线条绘制的说明。计算机视觉更加关注与从摄制的或其它位图图像中识别线条、形状和关系(例如后面(behind)、前面(in front of))有关联的问题。在本文描述的非受限界面系统类型中,这些场景通常以一种不同的方式发生。在计算机视觉中,场景作为既成事实(fait accompli)出现在识别引擎中,代表的是视频照相机的输出或扫描的设置图像。接下来的问题就是从线条、曲线、阴影等的潜在暗示中(Leclerc Fischler,1992 )抽取内嵌的数据(二维或者三维)。另一方面,本文提出的非受限界面理论更多地关注用户输入的类似草图的数据的分析(实时的或者输入后的),它的内部表示和潜在的解释,以及相应的向用户传达适当非受限程度的类似草图输出的实现。然而,计算机视觉得文献确实提供了有用的与非受限界面系统相关的算法和表示的概念,例如直线的最佳拟合方案(Pao,Li Jayakumar,1992 和Chattopadhyay Das,1991 ),和形状识别(Marr,1982 )。 非受限界面相对计算机视觉有一个优点:接受用户的线条绘制数据的输入机制能够实时地接受(并可能处理)数据,这导致了可推导的相关的额外数据。例如,一个房屋(house)等对象的线条绘制将以一种特定的顺序进行:首先可能是房屋的长方形身体的外部线条,然后是窗子和门,接着是屋顶,最后是烟囱。这些时序数据可以帮助解决模糊的图像。Necker立方体侧面的组成线条也将以一种特定顺序绘制,这可(可论证地)被用来说明想要的结果图像。Reisberg(1987 )在他的文章具体化思想的外部表示和优点中探究了这一点,其中他指出将思想具体化的重要性,例如脑中图像的内容通过草图。 Negroponte(1971 1973 )将草图识别定义成用户意图(他本身可能没有意识到)和他的图形清晰度之间错配的逐步解决。在设计的上下文中,因不断改变由用户观察他们自己的图形陈述而产生的意图,意义和意义的图形表述之间匹配的收敛变得复杂。。他的HUNCH程序是采用来自草图的推论使得以最终设计结束的早期尝试之一。 注意到文本描述的非受限界面系统面临着计算机视觉的很多问题。其中某些问题的可能是很难处理的。例如,可能永远无法开发出能够以精确否配用户意图的方式解释图形输入的系统。 Citrin和Gross(1996 )描述了一种图表识别的技术,利用了低层和高层的部件。作者详述了一种采用PDA和桌面计算机进行笔式输入和图表识别的方法。PDA进行低层的形状识别,而桌面计算机负责高层识别。这个体系结构与Zhao(1993 )使用的相类似,也与本文描述的非受限界面的实现所采用的体系结构类似。 Straforini等人(1992 )声称,三维结构的复原和从电视图像中观察到的对象的识别属于计算机视觉的主要目标。他们描述了一个系统,其中低层视觉模块从真实图像重获线条绘制,而高层推理模块进一步处理图像。Marill(1989 )分析了人类视觉系统如何产生二维图像的三维解释的问题。也存在其它的形状识别技术,例如采用直线Hough变换(Pao,Li Jayakumar,1990 )。Hough变换是一种众所周知的用来在二进制图像中检测参数曲线的方法。 一些表示的框架 本文在第三章提出了非受限界面的结构。然而这里将先概括一下表示结构背后的关键概念。 所提出的表示中基本的是原始原型(primitive prototype)和相关联的特定参数(specific parameters)的概念。作为一个例子,我们考虑一条手绘的粗糙直线。这种情况下,表示的要点是一条简单的直线(straight line)。表示的原始原型是抽象的没有粗细的完美几何直线,它的轨迹根据特定的最佳拟合算法得到。相关的参数是一个特定的能够进一步充分描述实际线条的属性的集合,包括线条阴影的度量和它的颜色等等。这种观点出自两个主要的原始资料:来自知识表示理论(Knowledge Representation theroy)的框架(frames)(Minsky,1975 )的概念,和认知维(Cognitive Dimensions)(Green,1989 )形式的参数。 框架的概念结构很适合原型/参数的构造。框架是表示关于有限领域的知识的结构,基本上由一个固定的原型(prototype)和许多相关的被填充物(fillers)占据的插槽(slots)构成。框架已被用于许多人工智能的问题领域,例如为识别的一类问题表示知识(Kuipers,1975 )。框架也在编程语言中也有一些用途,Apple Newton PDA就是一个带有基于框架的开发环境编程语言的计算机。框架对面向对象的结构和编程技术的开发也是有帮助的,这在本文的软件执行中使用得很多。 认知维(Cognitive Dimensions) Green提出了认知维的概念,把它作为一个在认知上更精确地描述相关界面性质的描述词汇,而不是一个计算上的术语。他引入了粘滞度(viscosity)(表示对变化的抵抗力如何的一种度量)和过早提交(premature commitment)(交互过程中用户是否过早地固定于一种选择的一种度量)等概念,并在一系列论文(Green,1990 ,1991a 和1991b )中探究了这些概念。 这种认知维为提出附联的(认知的)属性的概念提供了基础。一般而言,认知维描述了信息结构的方面,所以界面的这些方面能够以同样的用物理维(例如重量和长度)描述对象的方式来描述。根据Wood(1992),Green最初提出认知维作为形容不同计算机编程语言的概念的集合。然而,认知维的概念将它很好地引入到描述界面中来。 在非受限界面中坚持使用认知维:本文吸收了认知维的概念,并稍后假借阴影(shakiness)、粗细(thickness)和循环(period)等非受限认知维(informal cognitive dimensions)将其用作原型(以框架的风格)插槽填充物的基础。这些非受限认知维并不是Green原始风格和意义的认知维,因为它们本性不同并必要地具有不同的风格。然而,Green使用认知维对本文采用相似的非受限的对等物是一个促进因素。 一些软件工具 在继续分析对形成本文基础有影响的开发的一些思路之前,回顾一些背景工具和可用来帮助构造表示结构并帮助开发示范软件的技术是有指导意义的。 虽然2.4.1中概括的框架结构(Minsky,1975 )为内部表示提供了一个吸引人的基础,却只有少量可用的软件开发工具使用该概念。某种程度上,框架已经引申成了更加一般化的面向对象分析和设计(object-oriented analysis and design)(Booch,1994 )的概念,正如本文采用C++(Borland,1992 )的一些软件实现中所用到的。本文的其它软件采用经典的C编程语言(Kernighan Ritchie,1978 )开发。 注意采用了人工智能编程语言,Prolog(Clocksin Mellish,1981 ),来开发一些核心的智能引擎软件(Amzi,1995 )。Prolog很适合本文后面4.4.6中描述的软件执行的识别引擎所遇到的问题。这里,面临的问题是从低层原语(例如粗糙直线)得到高层构造(三角形、正方形和房屋等)。数据以原型(线条)和其附联属性(长度、起点等)的形式提供给智能引擎。Prolog的反向跟踪和剪切正适用于这类问题得到连接(attachment)(实际是约束条件)的中间层构造,并从中得到原始几何对象(例如,一个三角形有三条线A、B和C,并且A与B,B与C,C与A相连)的高层构造。 约束条件和约束编程语言 在第三章中将看到,非受限界面内部表示的部分结构依赖于显式或隐式地使用约束条件(constraints)(例如Borning Duisberg,1986 )。例如,如果四条线以正方形的形状绘制,则它们被每条线的终点连接着下一条线的事实约束。 图6给出了由本文实现的一个软件程序(叫做i-Fax)产生的一个类似草图的方形的例子。它的内部表示由四条粗糙直线的非受限对象组成,结构上被每条线与另一条相连(attachment)所限制。 在本文描述的非受限界面系统中利用了两种类型的约束条件:全局的(global)和结构的(structural)。全局约束条件是贯穿对象终生的统一应用于对象的非受限认知维,例如阴影、循环、粗细、长度和方向。该系统采用了一个结构的约束条件,连接(attachment)。其它的系统可能利用了其它的结构约束条件,例如上方(above)、右方(to_the_right_of)等等。 约束条件是强有力的,因为如果要旋转这个方形,可以有很多种完成方法。例如,矩阵操作可以应用于表示屏幕显示的象素位图阵列。然而,如果采用了约束条件,则只需要将一条线转换到新的位置根据连接其余的必须跟着配合(实际上,连接是本文开发的软件主要利用的约束条件)。 约束条件对本文描述的界面构造中的非受限类型来讲,是一个重要的概念。因为很自然地,可以将它作为一种有用的关系来约束原始的图形元素(粗糙直线等)。 该概念更早用于Ivan Sutherland的基于约束的图形交互系统Sketchpad的开创性工作(Sutherland,1963 ),以及后来被Borning Duisberg(1986 )扩展的Alan Borning的ThingLab(Borning,1979 )和其它的Stefik(1981 )等等。在约束系统领域还有持续的工作,例如DeltaBlue算法(Sannella,Maloney,Freeman-Benson Borning,1992 )中的多方式(与单方式相对)约束,基于约束的数据流(Kass,1992 ),以及CONSAT,一个为满足约束的系统(Gusgen,1989 )。 草图的能力 同时,人们越来越意识到在相关学科中图表和草图(sketching)的能力与用处。Lansdown(1985 )指出计算机图形学设计者们趋向于在可信的自然主义更适合的时候,以摄制现实主义为目标。Bundy(1977 )论证了在机械领域需要图表来描述问题,例如从斜坡滑下的一个小块(过山车问题)是否会达到另一边的顶端,还是循环下去。他的解决方法是像符号描述一样,从图表描述问题的方面,将它转给机械领域中的一般的问题解决者。 正如Cohn,Randell Cui(1993 )在他们关于定性空间关系的工作中说道,基于领域的空间逻辑的存在论者的开发才刚刚开始变成一项认真的研究活动。他们描述他们的工作是为定性推理改进一个系统,这基于系统和对象的图表中元素间的关系,例如内部INSIDE、外部OUTSIDE、刚好外部JUST_OUTSIDE等等。虽然他们的例子基于推理上合理绘制的图表,很有趣的是注意到粗糙草图在多数情况下也可以表达相同的目的。 有越来越多的图表使用和理解方面的研究,包括一般的和例如图(graphs)等特殊的情况。Preece(1983 )和Lohse(1991 )等研究者们已经分析了图理解背后的问题。正如Lohse叙述的,尽管在信息系统的设计中图形学越来越重要,对人类如何感知和处理图形信息还只有部分的理解。他指出图感知和理解的认知模型的研究如何能够被用于非受限主义,以及图的粗糙草图表示如何能够本质上像信息的非受限显示一样有趣。非受限界面的一个关键概念是的计算机输出的恒定性的放松,所以它对学习人类如何感知和处理图形信息的意义是有启迪作用的,虽然这不是本文的重心。然而,图的理解是一些本文描述的非受限界面系统的类型的元素未来应用的一个例子。Lohse描述了一个计算机程序UCIE(理解认知信息工程),它对潜在的人类采用的感觉和认知过程建模,将图中信息解码,并考虑从柱形图、线性图和表格分析的结果。他的机械论的方法是首先决定能够解码信息的视觉定象的逻辑顺序,接着计算(从短期记忆已知的观察、阅读时间等等)这将持续多久。 Lewis、Mateas、Palmiter Lynch(1996 )给出了一个例子说明如果使用在适当的上下文中,类似草图的图的潜在能力。他们的论文展示了一个使用种族图解数据在产品开发环境中驱动设计的过程。他们的部分过程包括从分析会议中收集数据。有趣的是,他们在论文中通过使用图7中类似草图的图,说明了观察的数据分析会议的时间结构。正如作者(同前)陈述的,(图)并不想指明精确的时间结构,但却提供了在这种会议中一个典型的分析循环的例子。所以作者并不试图通过受限的、完美绘制的图的方式,表示他们想从读者得到的信息。相反的,他们选择通过更加粗略的、粗糙绘制并非受限的图的方式,传达他们想要表达的东西的粗糙的印象。以这种方式,读者能够领会到他们观点的大致要点的一点感想。然而,读者也应该意识到读入太多图的精确元素是不适当的。例如,把线条数据窜改或推断到一个很高的精确程度可能是不适当的。 有大量的关于计算机采用铁笔输入的工作。例如,国家物理实验室(NPL)说明在他们的电子论文工程(Brocklehurst)中需要用到草图输入和后来的分析。其中,用户可以在平坦的面板显示上书写,手绘符号、图画、字符和草稿被解释,并且在屏幕上显示意图的结果。NPL的电子论文提出了非受限界面的一个主要特性:输入适应性(tolerance)。用户能够以草图和手势的方式输入数据,软件为后来的输出做规整化。例如,用户可能输入一张图的两根粗糙的轴,并在他们的终点进行注释。这将被软件整理并显示为两条完美的直线轴,并带有中间的注释标记符号。接着,用户就能够输入数据点,和所选择的正确类型的曲线(例如线性的、二次的或其它)。程序将计算并绘制曲线。 还有图形、图表使用和理解的持续研究的其它例子,例如计算机视觉和计算机图形学交集的分析(Montalvo,1985 ),还有定性视觉特性的获取和确认(Montalvo,1990 )。在该文中,一个知识观察仪的软件程序像框架(frames)一样表示图形对象、特性和关系。在计算机图形学屏幕上作为原型(prototype)表示的特性(properties),可被逐步联合以形成更复杂的特性和对象。每个用框架表示的特性,本身都有一个插槽(slot)和一个发生器(generator)、识别器(recogniser)和回音(echo)功能。所以如图8,例如SIDEDNESS的特性,三角形将用值3填充插槽。这与本文第三章描述的非受限界面的构造是相关的,因为它是一个内部表示结构的例子,基于框架风格的原型(prototype)及其相关的插槽(slots)的填充物(fillers)。 用图表帮助思考和视觉编程语言的出现,是传统领域内图形学的使用和能力的持续主题。Green和Blackwell(1996 )引证了这背后的一些原因,例如人们发现处理具体的(例如视觉表示)比抽象的更容易的事实,视觉充分利用了人类认知(形状比文字更易处理),以及视觉编程使得语义关系更明确(以图画的形式)。用图表帮助思考的主题与本文描述的非受限界面相关,因为图表与非受限的、随便的、草图显示有关。 对艺术、草图和计算机的合成有巨大指导意义的另一幅图是Harold Cohen(McCorduck,1990 )。虽然Cohen依照训练和职业是一个熟练的艺术家,并且不知道关于计算机的任何知识(计算机在刚刚起步的阶段),事实上他还是摈弃了他已建立的职业并从事通过计算机创建艺术的远见。他的计算机程序AARON,现在仅有的能自治产生艺术作品的程序(Sharples,Hogg,Hutchison,Torrance Young,1989 ),能够创建类似草图的艺术场景的绘制。 图9显示了由AARON创建的一幅图画。从计算机科学的角度,在建筑的意义上AARON构建得不是很好。总体上AARON确实考虑了创建原始的艺术作品,多数人认为其在美学上是满意的,并且很难与人类创建的相区分。另一方面依照职业或训练,Cohen不是一个计算机软件工程师(可能永远也不能这样说),在AARON开发的早期阶段,计算机程序非常的混乱。后来的开发把AARON放到了更加结构化和面向框架的基础上。 AARON的论述与本文是相关的,因为它是一个用内部表示结构来描绘类似人类的图形输出的例子。它也是一个使用输出可变性的例子,因为AARON有些不可预知地产生了相同主题的相似但不相同的图片。所以,场景的总体要点是相同的(例如一组人站在树丛中),虽然精确的细节可能不同。 在艺术和设计中,已经做了大量的工作来分析草图背后的原理。Fish和Sctivener(1990 )声称达芬奇提倡使用凌乱的不确定来设计作品,因为他相信草图促进了视觉创作。同样地,根据Fish和Sctivener,草图是不完善的视觉结构,增强了智力想象的发明和问题解决的用途,并且Negroponte(1977 )注意到草图识别是一个比喻一样的事实。对那些以妄想、不一致和模糊不清而著名的设计领域的兴趣就是一个例证。虽然这些图形是令算法讨厌的,它们确实设计的精髓。虽然作者以一种有些不同的方式谈论草图,对本文这仍是一个促进因素。本文描述的非受限界面内在具有类似草图的本质。在计算机支持的联合操作工作和协同设计领域还有进一步的工作。Scrivener和Clark(1994 )主张草图完全不是时代错误的一种实行过的技术并可能被基于计算机的图像技术取代。事实上它仍然是一项必须的功能,因为草图的特性支持并帮助了设计的早期阶段中采用的视觉推理,草图活动也同样有这个功能。 这些作者和其他人(Scrivener、Harris、Clarke、Rockoff Smyth,1993 和Scrivener、Clarke、S.、Clarke、A.、Connolly、Palmen、Smyth Schappo,1994 )一起,进一步讨论了通过采用交互的实时草图功能,支持分散的工作组设计成果的情况。在该系统中,分布的很远(甚至可能分布在不同的洲和不同的时区)设计者们将采用共享的用电话线连接的计算机草图板系统。 在Utrecht艺术学校,Barfield、van Burgsteden、Lanfermeijer、Mulder、Ossewold、Rijken 和Wegner(1994)在一篇关于交互设计的文章中,描述了一些草图图符的例子。如图10和图11中说明的,在该文中更多地使用草图来代替受限的图表和表格。一旦选择了受限的方法,使用这种表示的非受限模式是一个持续的趋势。这可能部分与技术有关(例如能够将草图与文字处理文档相结合的情况),部分与作者(这种情况下显然是一群艺术学校的设计者)的传达满意风格的特定印象的愿望有关。 在Colorado大学的建筑和规划学院,Citrin和Gross(1996 )采用一个前端的个人数字助理(PDA)手持计算机(Apple Newton)和一个伙伴的后端计算机(Apple Mackintosh),研究了分布式数字草图书籍的概念。后端计算机以处理能力更高和存储更大的形式对PDA提供支持。这里需要的是,例如,帮助领域内电信服务工程师。作者说明,代表性地工人抵达站点来修理单元,只需面对令人糊涂的电线的混乱状态:工人最初的任务是对混乱做一个草图图表来试图分清每根电线的作用。作者的PDA系统允许工人输入这些草图图表,首先经过一遍识别尝试,然后上传到后端传统的计算机上以进一步处理。以这种方式,没有浪费(因为下一次出动工程师仍同样需要得到另一副草图)早期的、非常有用的草图,而是为后续的下载做了一些存储、编辑或者改动。 如图12所示,系统的后端是他们(同前)的Electronic Cocktail Napkin工程(Gross Do,1996a )。该文中,作者主张:在所有的设计领域(从软件到潜水艇),图表和草图在概念、格式化阶段起了很重要的作用。我们想要支持这种绘制和草图,就像在信封背面或鸡尾酒餐巾纸上绘画一样。它快速而粗糙,但它允许你快速地探究和说明基本的选择。 在更进一步的论文(Gross Do,1996b )中,作者主张概念和创作性设计的界面应该支持识别和解释图画。它们应该捕捉用户意图的模糊性、不明确和不精确手绘图画可以提供这些信息并且它是设计的自然的输入方式。 非受限界面的能力 Mundie和Shultis(1991 )考虑了计算机系统的发展。虽然提出并分析了非受限主义和非受限的概念的很多方面,它对人机交互和用户界面设计的潜在应用还没有正确的评价。例如,Reeker(1991 )在他的论文界面中的非受限主义(Informalism in Interfaces)中,研究了自适应界面的一些例子,并分析了视觉知识的表示等概念,还把认知的表示结构投影导计算的表示上。 Fisher(1991 )分析了什么是非受限主义的问题,并得到了许多结论。他从物质世界和抽象世界的本质上确定了受限方法的缺点,因为它们假设了限定的描述,通常需要完整性、一致性和精确性,并且不足以描述和分析物质世界。Fisher总结到非受限系统必须包含并开发受限的方法,它们必须是有内涵(intensional)和不完善(incomplete)的,它们必须能够处理不一致性(inconsistency),它们必须是非轴对称(nonaxiomatic)和原型的(prototypical),并是不精确(imprecise)的。 Meyer和Crumpton(Meyer,1996 和Meyer Crumpton,1996 )将非受限应用到用户界面设计和体系结构中。作者(同前)陈述到研究者和开发者们发现了在创作过程中类似草图的表示的需要和重要性。然而,在WIMP界面的受限性中,他们认识到这些应用通常展示用户的粗糙草图的问题。这产生了两种竞争的外表视觉不一致的问题:计算机产生的界面的外表不能反应笔输入的感觉(后者)是可变的、动态的、个人的非受限的,但计算机产生的图形看起来是线性的、静态的和受限的。 他们的非受限界面的实现,EtchaPad(Meyer Crumpton,1996 ),是非常有趣的。因为小零件和窗口的形状看起来的感觉是粗糙的,就好像人类手绘的草图一样。图13给出了EtchaPad的界面风格的例子。 EtchaPad显示了本文支持的非受限界面的两种关键特性,输入适应性(tolerance)和输出可变性(vatiability)。然而,虽然看起来前端图形显示利用了非受限界面的比喻,后端(内部)表示却是传统的,特别是没有关注表示的认知要点(gist)的概念。 在第三章中,将细致地描述开发的非受限界面软件。任何以粗糙的类似草图的外观表示输出的软件系统,都需要算法来产生这些草图的线条,本文实现中采用的这些算法将在后面描述。通过实验开发这些算法经过了一段时间,后来还要进行调整来得到更加自然和熟悉的外观。作为比较,Meyer和Crumpton(1996 )描述了他们试验的许多方法来试图得到绘制非受限的粗糙线条的满意结果。其中他们觉得最好的是采用由Perlin在纽约大学多媒体研究实验室独立开发的随机噪音函数(stochastic noise function)算法。图14给出了他们非受限的线条和小零件的例子。 Meyer和Crumpton的方法是给用户界面一个自然、熟悉的草图外观,对此Perlin噪音函数提供了一个很好的解决办法。然而该文的目的部分是研究使用非受限界面固有的内在的认知过程。为此,3.6中详述的原型/维模型(PDM)比其它的例如Perlin噪音函数等方法更适合。 Davis等人(1998 )研究了采用3Com PalmPilot等PDA使用户能够自然地进行基于电子墨水的协作笔记。作者(同前)描述了一个简单、非受限(用他们自己的话)的系统,它允许用户在会议中进行手写记录,并稍后将其他用户的记录搜集起来创建一个共享信息的知识库。 Heiner等人(1999 )创建了一个混合的系统(纸质PDA),它是传统的基于纸的组织器和一个完全的电子PDA的交叉。这很有趣也与本文相关,因为作者(同前)研究了将纸质最好的特性与PDA最好的特性联合在一起。他们认识到纸是一种不固定的、自然的并易于使用的媒体,而与电子媒体相比仍有局限。他们采用自然、非受限的草图手写界面作为输入,这稍后被转换成电子形式以做进一步的处理。 Schilit等人(1998 )探究了活动阅读(active reading)(阅读文本时自由地手写下划线、强调和评论)的主题。他们的系统采用一个大型PDA类型的带有液晶显示的写字板,用户可以在其上显示文本并采用铁笔进行注解。这是采用非受限的、直觉的方式与计算机系统进行交互,并提供类似草图的输入方式的另一个例子。同样采用这种自然、熟悉的输入机制,潜在地计算机系统进一步监视用户的自由格式的墨水注解,并通过他们发现用户关心的东西。例如,系统能够搜索与注释文本相关的材料,并在空白处显示它的链接。 正如Long等人(2000)指出的,笔式用户界面越来越受欢迎。这种界面的一个重要和满意的特征是采用手势(用笔引发的命令)来控制程序。作者(同前)以创建一个帮助设计容易学习的集合的工具为目的,分析了手势集合的设计。根据本文手势是有趣的,因为它们是用来命令和控制非受限、草图显示的例子。 最后,Igarashi等人(1991 )像本文描述的一样研究了非受限界面的一个潜在的应用三维自由设计的草图界面。在他们的论文中,他们描述了为快速设计已喂饱的动物和其它圆形对象等自由模型的草图界面的设计。用户交互地绘制二维自由(草图)笔划来说明对象的轮廓。内在的系统自动地构造一个基于笔划的三维多边形表面模型。他们的程序为快速构造近似的模型而设计,而不是为了精确模型的精心编辑。这种方法也是本文关心的,因为他们(同前)采用了非受限的、基于草图的界面来允许用户方便、快速地输入设计的想法,并使用内在的受限工具和方法(例如多边形网格表示)来产生一个最终的模型。 小结 本文综述了很多领域内的文献计算机科学、认知科学、心理学、生物工程学、计算机视觉和艺术设计。计算机系统中的非受限,和尤其是用户界面设计的概念是相对较新的。然而计算机系统和界面中的非受限却出现得越来越多。非受限性(informality)和非受限(informal)的术语在不同的上下文中有不同的意义。本文主要关心通过采用输入适应性、输出可变性和潜在表示的要点,非受限性在用户界面设计和计算机系统中的应用。这些概念在不同范围的文献中出现,并具有不同的外观,正如本章所证明的。 本章进一步为界面系统编制了一个目录,从早期的Unix等受限的界面系统,到最新的研究论文中基于草图的用户界面和应用。正如本文描述的,这一章注意到计算机视觉致力于处理与非受限界面面对的截然不同的问题。然而,也注意到可以从计算机视觉和图形学领域的传统研究文献中得到很多东西,远到一些本文描述的构建非受限界面的工具和方法学。其它众所周知的构造,例如框架(frames)和对象(objects)以及基于Green认知维(cognitive dimensions)风格的属性,还有基于约束的系统(constraint-based systems)为本文描述的非受限界面的对象表示提供了适当的基础。 总体上,本文对文献的调查发现了一个用户界面和计算机系统设计中的非受限的不同风格随着时间发展的趋势。本文尤其关心的是在用户界面设计中采用类似草图的输入和输出,以及采用相关的受限方法学来构建这样的非受限界面系统。本文描述的非受限界面系统的许多元素都被多方面的文献接触到,所以本文的目标是把将若干关键的分散的元素以全新的方式聚集起来(例如输入适应性、输出可变性和表示的要点)。 (梁爽编译)
个人分类: 学术动向|7133 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 18:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部