科学网

 找回密码
  注册

tag 标签: 容错

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

我们从信息技术系统失败中学到了什么?(151123)
热度 10 ymin 2015-11-23 09:10
我们从信息技术系统失败中学到了什么?( 151123 ) 闵应骅 十年前, IEEE Spectrum 发表 Why Software Fails 谈软件项目的失败,后来又开启 Risk Factor 的博客,跟踪大小技术的失败。本人在 2010 年发表了 软件开发项目失败的原因( 100110 ) ,那是根据《 ACM 通讯 》上面的文章写的。最近 IEEE Spectrum 网站上用历史事例图示了我们从十年的 IT (信息技术)系统失败所能授予的五堂课(详见 http://spectrum.ieee.org/static/lessons-from-a-decade-of-it-failures )。这里说的系统失败,包括由于技术原因的系统失效、项目管理失败、项目中途停止等各种情况。请看下图,并分别解释如下。 第一课: IT 系统故障的惊人后果 几十年来,这世界已经越来越依赖大型 IT 系统, IT 系统故障浪费金钱和时间、扰乱了人们的生活。虽然我们早就注意到这一点,但我们仍然没有学会如何防止和避免这些事故的发生。请看下面这张图。 这张图列出了 10 年来各地发生的 IT 系统故障的情况。大圈表示大故障,小圈表示小故障,大小可以按经济损失大小来分,也可以按影响时间长短分,也可以按受影响的人数来分。影响大小可以分为若干档。分类可以按地区、故障类型、组织类型、政府类型、政府部委或产业类型来分。可惜上图是截下来的,提供不了这么多链接。挑一个美国发生的大圈吧!点击大圈告诉你, 2009 年 6 月美国国防部正式结束未来战斗系统现代化项目,该系统从 2003 年开始,已经花掉 180 亿美元。英国的国家电子健康档案系统 2012 年叫停,已经花掉 110 亿英镑。 2011 年 4 月韩国 NH 银行计算机故障, 10 天 3000 万用户受到影响。 2008 年 12 月由于网络问题关闭了多伦多证券交易所。 2008 年 3 月伦敦希尔斯机场 T5 行李系统故障, 10 天, 636 个航班取消,影响 14 万旅客。如此等等。 纵观这些故障,我们可以看到: l IT 系统的现代化是困难的、昂贵的。 l 数字化医疗保健记录是困难的、昂贵的。 l 银行在依靠不可靠的技术。 l 即使是短暂的股票交易所故障也是昂贵的。 l 即使是短暂的航行旅行故障也是昂贵的。 第二课:过分复杂化和不透明 想把多个系统合而为一,常常一个都得不到。因为维护起来非常困难。许多政府部门企图把许多传统系统的功能组合在一起,形成很难理解、实现很差的系统,限制了运行的有效性。这事说起来容易,做起来难,因为给传统系统加一个东西带来新的挑战,甚至落入陷阱。 上图显示组合多少传统系统,花了多少钱的信息,开始点为绿色,结束点为红色,正在进行用黄色。看左边的一根黑竖线,美国海军的企业资源规划项目把原来 96 个系统合而为一,原计划 6.27 亿美元,结果多花了 3 年, 3 亿美元,还不包括 10 亿美元更新 10 年前的 4 个程序。国防部监察长强烈批评遗漏监管千亿军事装备的关键功能。 IT 系统的现代化要花很多钱,时间拖长,而且常常减少功能。一个最明显的例子是美国空军远征战斗保证系统现代化项目的失败。空军审计团队注意到,这 10 亿美元损失主要原因是不知道想要取代的系统一共有多少,各地估计不同,有的地方说要取代 175 个传统系统,而有的地方说是 300 ,该项目负责人在结束项目时说是 214 。心中无数,成功的机会当然很少。该文对每一个故障,都链接几十页的分析总结。 第三课:失败项目的全过程 IT 项目很少有一上来就失败的,而是像滚雪球一样,问题越滚越大。成功与否不是在哪一天,而是看到:结束时间不断拖延,经费不断增加。 我们以英国 FiReControl 系统为例(如上图),该系统是想用网络联上 46 个局部控制室,达到 9 个目的:建造地区控制中心,用全国的计算机系统处理呼叫、调动设备、管理事故等。从 2004 年开始,进展不理想。又重新计划从 2007 年 10 开始,计划到 2009 年 10 月结束,花 1.2 亿英镑。到 2007 年 6 月发现不够,最后订 2011 年底完成,需 2 亿英镑。到 2008 年 7 月,发现关键元件失效,计划拖到 2012 年初, 4 亿英镑。到 2010 年 12 月,由于管理混乱、计划不周、关系紧张,该项目结束,经费已花掉 2.5 亿英镑。按他们的说法,估计要 6.35 亿才能完成。这样的马拉松计划政府无法继续支持。对于其他 5 个计划都有类似描述。 第四课:为 IT 系统失效逃避责任 IT 系统失效,总要找原因,也许是人为因素、草率的编程、不充分的测试、不懂可信性或者不正确的假定,常常是把责任推给无生命、不会说话的技术。本网站列出 10 个故障的具体原因。譬如, 2005 年 11 月日本证券交易所计算机系统故障使交易所停业一天。技术上讲,其原因是一个新装的由富士通开发的交易软件只支持高额交易。每个故障都有不同的具体原因。对于每一个原因,列出简单解释,和链接的文献。点到那篇文献,你就可以去了解详情。 第五课:失败的纪念碑 上图为 10 年来每一次大事故列了一块墓碑。和原来对危险因素的分析一样,不外乎是不实际或者难成文化的项目目的、不科学地定义系统需求、无边的系统复杂性、设计得不好的人机界面、粗心的开发实践、很差的项目管理、恶劣的持股人政策、过激的商业压力等等。点击最近的一个吧! 2014 年 10 月新泽西州取消了一个 2.27 亿美元的福利事业计算机系统项目。 2009 年计划是 1.9 亿,包括与 HP 的 8300 万的合同, 2014 年 7 月完成。项目取消时估计预算到 2.27 亿,已付 HP 1700 万,要退回 700 万。州政府已经花了 1.07 亿,但拒绝给出精确数字。 我们从信息系统的失败中可以学到很多东西,尽可能做到吃一堑长一智。但是,十年前就提醒,这十年照样犯。如果把经验教训装到自己兜里,别人不知道,就更不可能成为人类共同的财富。我看这篇文章另一个最大的感受是网络媒体多么强大。如果要用一篇文章介绍这 40 多次大大小小的事故,恐怕要写一本几十万字的书,而且大多数读者可能没有那个耐心读完。读者所关心的也许是与自己关系最密切的事例。而这篇网络文章是立体式的,提纲挈领,多树结构,列出五堂课,每一堂又列出许多选择,看你想看哪一条。进入那一条,先列简单的解释,然后可以链接到各种详细信息。读者既可以了解面上的大概,又可以深入到一个点了解详情。这显示了立体媒体相对于平面媒体的优越性,对于这种类型的分析总结特别合适。当然,对于逻辑性非常强的科学论文,必须从头到尾仔细阅读,没看懂前面的,你就看不懂后面的,这样的论文还是需要平面媒体。读者如果有兴趣,不妨点开 http://spectrum.ieee.org/static/lessons-from-a-decade-of-it-failures 试试看。
个人分类: 计算机|12217 次阅读|26 个评论
你怕被机器人劫持吗?(131125)
热度 10 ymin 2013-11-25 09:07
你怕被机器人劫持吗? (131125) 闵应骅 1999 年在香港召开IEEE太平洋沿岸国际可信计算会议(PRDC'99),我和赵伟是会议主席,我们邀请了香港警察总部一位警官作了一个大会发言,讲网络时代的犯罪问题,给我印象很深。他说 网络时代法律有许多新问题,譬如什么叫犯罪、什么叫证据,在网络环境下有许多模糊不清的地方,按过去的定义无法解释。十几年的历史证明了这一点,法律也已经有相应的发展和补充。到现在,新问题又来了。机器人已经并且将要大发展,类似的问题又提了出来。 据新闻报道,美国军用机器人数量十年内将超过士兵人数,平均每 10 个机器人对应 1 位人类士兵。当美国士兵们在危险的街道上巡逻时,将可以使用机器人的热成像来扫描该区域,并将现场图像发送回指挥中心。美国机器人研究人员与美军方官员正试图在几年内将以下场景付诸现实:巡逻时的每位士兵都将机器人在侧翼搜寻敌人和发现地雷;同样,徒步穿越山区的步兵小分队,将在机器人的帮助下携带额外的水、弹药和防护装备。美国陆军宣布或将于 5 年内部署远程遥控机器人步兵投入到实地作战中。除军事应用之外,一个医生可以给几千里以外的医院里的中风病人看病;股票行情可以瞬时地进行分析;在因特网上可以限时抢购到最低价的鞋子;高速公路上的汽车可以在安全距离时驶下高速,自动调整速度、方向盘,并根据实时路况信息适当制动。所有这些情况,机器人都可以帮助人类。甚至还有性爱机器人,几乎和真人一样。有人说吸血鬼机器人可以提取血液凝块,清除大脑血栓。无人机可以携带武器攻击地面目标,甚至也可以探测到一大群蚊子的行踪,然后对这群蚊子进行攻击,杀死在野外的蚊子。 机器人可以做这么多好事,但也可能做坏事。当机器人出事,不管是无意的,或者是设计的故意,都会带来经济损失、财产损害、人身伤害甚至危及生命。当然,对于某些机器人系统,出现异常行动的责任要根据传统的产品责任判定法、法律专家提供的案例,区别故障部分生产厂家和操作员的责任。但是,必然有许多情况是难以判断的,而且会出现许多新的判例。许多公司不敢把机器人推向市场,因为他们不知道出了事故,他们要付出多少。谷歌一直在找能限制他们责任的法律条文,或者设法能管理这些风险。 一般的机器做坏事,首先是追究操作员或生产厂家的责任。但机器人设计得越来越复杂,一般都有所谓“智能”,即根据外部环境的自我决策能力,而不是简单地按预先确定的指令行事。他们可以根据外部和环境刺激而行动或反应。机器人的一个事故或者瞬间的决定,其最后责任就很难确定。这时,机器人或者任何自主的机器的动作也许是由设计者故意设置的,而看不出任何错误或故障的痕迹。如果不是设计者的故意,责任就很难分清。 有些现象可能是机器人设计者无法预见的。譬如无人驾驶的汽车从超级市场的停车场出来,正赶上一个购物手推车和一个童车同时推到汽车前面,要是人驾驶,一定会接近购物车,以避让儿童。但是,机器人会这么选择吗?尤其是在故障情况下,机器人任何动作就成为产品责任法律之外的问题了。私营部门关键利益相关者、贸易协会、学术机构和公共政策制定者必须协同工作,解决这个问题。但现在还没解决。另一个责任问题是人起什么作用,是人以安全的名义去统治机器人的行动、还是听之任之?如果出现事故,不管是无人驾驶汽车、操纵医院走廊的机器人、或者飞到平民村上空的无人驾驶飞机,其责任问题有待争议。 机器人大多设计在方便人操纵的地方,法律要追究人的责任,争议就会增加。机器人制造者说“我的机器人可靠性 100% ,我是没责任的。”其实这对危机分析者来说是个误导。汽车事故的人为原因占 93% ,自动驾驶汽车的可靠性应该达到多少呢?不可能要求 99.99% 。美国已有四个州批准无人驾驶车辆合法,但条件是:驾驶员必须始终坐在驾驶座上,紧急情况下可以采取措施,驾驶员必须有传统的意外保险。欧盟制订了紧急制动系统和车道偏离警告系统规范。医用远程机器人主要有两个功能:远程医疗会话,包括音频、视频和某些传感器;移动组件,通过传感技术使机器人能自主在室内活动。法律对机器人在工作场所的使用没有明文规定,但把机器人作为个人或公司的代理的想法已经提出来了,机器人的所有者或操作者将对事故负法律责任。由于先例很少,这个法律的制度进程将是很慢的。 现在一般机器人开发大多基于开源软件,出现问题很难找到责任人,很难定量地确定功能或使用违规或非法。斯坦福法学院等校指出:开源机器人的功能无法事先定义,机器人运行动作的地点无法限制,使得机器人部件或系统开发者很难确定他们的责任。部件内隐藏某些危险,装成系统以后就可能产生有害的动作。现在法律学者建议建造一个许可系统,类似于成品软件的终点用户许可协议,规定机器人或其部件在某些情况下不许使用,譬如制造武器,或其他伤害人、动物或财产的机器人,并且,对机器人或部件的诬告将需要赔偿其开发者和制造厂家。 图示的机器人是教育研究者的开发平台。如果此机器人发生事故,引出损害和伤亡,谁来负责?本图来自 CACM , 2013 年第 11 期。
个人分类: 学术导航|6493 次阅读|32 个评论
实施无错事(话)不晋升的考核机制将会咋样?
陈龙珠 2011-8-30 07:46
虽然不能说在伟大光荣的共产党领导下的中国缺乏信仰,但在社会主义市场经济环境下,当前有众多的高级党员干部乃至百姓,对是否还应该持有不损人利己的价值观存在迷惑,也是不争的事实。 为了晋升或获得其他重要的利益,夸大其词甚至造假,在中国目前是屡见不鲜:小到个人,大及党派和政府。晨读看到原教育部新闻发言人 王旭明先生的近日观点 “对那些该讲不讲、永远讲正确废话的人该给予批评,至少不升职”,我不禁好奇了起来:要是在职位晋升、年度业绩考核表中增设必填的“最大的错事(话)”一栏,而且对不填写者实行一票否决制,那局面将会是咋样的呢? 据说有些贪污腐败案的进展颇具戏剧性。某人因某事被立项查处,在“双规”或进了局子后,检察或公安审讯人员并非直接问及其是否干了这事那事,而是会用坦白从宽的思路诱其自己将已经做过的违规犯法之事写出来。若这人这些年来干的坏事不少,而且不知道到底是哪件事被盯上了,则就有可能发生写出的并不是被纪检公安正在查处的事来。于是乎,即使当初立案被调查的事确实与其无关(无罪),但因其自己坦白写出了别的确实是乱纪甚至违法的事来,而再也难以恢复往日的雄风甚至自由之身了。
个人分类: 陈词滥调|1899 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 01:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部