科学网

 找回密码
  注册
科学网 标签 CPU

tag 标签: CPU

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

给cos更多的宽容吧
热度 1 accsys 2014-2-28 16:25
姜咏江 自主知识产权的操作系统cos刚刚问世,就遭到了种种质疑,其要点是不是仿造或抄袭?所有有骨气的中国人都盼望真正的自主创新研发的os问世,然而现在这怎么可能呢?我们知道,操作系统本身是计算机硬件功能的扩充与延伸。操作系统的根基在于计算机的硬件结构,在于指令系统和程序数据运作执行方式。然而这一切都与计算机的核心部件cpu的设计思想有关。我们有独特的cpu设计思想吗?如果没有基于独特的cpu设计思想与构架,请不要妄称创新和独立开发吧。目前,中国设计能够进入市场的cpu,没有一家不是按照国外成型的核心技术进行的,没有自己的核心核心构架和独特的思想技术,怎么谈得上自创?难道将人家做过的东西,自己独立地做一遍,就是自主知识产权,就是独创吗?在计算机硬件核心设计不变的情况下,在程序执行的基本方式与前辈相同的情况下,在人家os已经通行几十年的情况下,还是不要妄言os'自主创新'为妙。要谈创新,首先要问问自己设计的os与人家已经存在的os有何不同,不同点越多,创新的百分比越多。当然,最关键的技术和方法有一点不同或者是改进,那就值得在这方面炫耀!那才是自己的知识产权。 有人说我们可以在虚拟机上编写操作系统,譬如linux。不要忘记,虚拟计算机也是在具体的计算机体系结构中抽象出来的。难道虚拟计算机不随同实际的计算机体系结构变化吗?中国人要有真正的独创的操作系统,必须要有自己独特的计算机体系结构,哪怕是其中的一部分(例如,本质上不同的指令系统),这样我们才能有os创新设计的根本。 问题说到底,要有创新的操作系统设计问世,必须有创新的cpu设计。在我们没有创新的计算机cpu设计的情况下,谈论完全的自主知识产权遭到非议也是必然的。不过我们应该看到我国的现状和计算机科学技术发展的过程,在这个领域,我们还处在追赶学习的阶段,因而学习他人的操作系统设计是我们不可避免的过程,在这种情况下产生的国产操作系统具有许多与他人设计相同之处是可以理解的。 中华民族要复兴,必须学习先进,在学习的基奠之下去搞创新,这是正路。现在在这条道路上奋进,说一些大话,以求在国内占领市场,是暂时可以理解的。不是吗?如果在不能够真正实现创新的条件下,我们连仿造学习都不搞,那么我们何以取得能够创新的经验,最后达到创新的目标? 中国的计算机界走了弯路,在计算机核心技术与方法上我们走了弯路,现在要快速地扭转过来,我们才会有希望。怎样扭转才能快速?仿造!这不能不说是落后者追赶先进的一种极好的快捷方法。 再谈谈我国的现状。国家的科研资金掌握在行政人员手中。科研人员要拿到资金,不说大话如何获得那些必要的科研经费?不说大话如何能够进一步获得经费?不说大话,又如何让那些掌握基金发放权力的行政人员,或者那些不懂装懂的专家们相信?从这一点上说,我们应该理解那些说大话的科学家。 cos、麒麟等操作系统的问世,不能不说他们在努力。即使他们只是学习别人的代码,甚至移植(别用抄袭这个词,这样对人打击太大),只要是认认真真地分析解读了,那么肯定收获不小,国人应该给予鼓励。 从国家安全的层面上来看,我们长久地使用他国的CPU和操作系统都是十分危险的事情。立国之本,必须要有自己设计的CPU和操作系统。操作系统依赖CPU,因而最根本的要抓CPU设计。我一向不反对在一定的条件下仿造先进的CPU和操作系统。经过以“龙芯”为代表的CPU仿造过程,应该到了细致研究国外CPU的优缺点,创造出具有时代精神的“完全自主”的CPU知识产权的时候了。当前CPU的构架需要更改,与之相适应的操作系统OS当然也需要改。以进程线程为主的OS所进行的处理机管理,进程管理,内存管理等产生了巨大的系统软件消耗,就是设备管理也发生着巨大的变化。打破原来操作系统的所谓“五大功能”,以适应片上多处理器CMP的发展,不知有多么广阔的天地。 即使操作系统COS和以往的Android操作系统如何相同,我希望国人也要给他们支持,因为无论如何,这个操作系统会比国外的操作系统安全。给予支持,让他们发展,让他们去创造更好的OS,我想这应该是每一个爱国人士的期望。 操作系统的根基在于计算机的核心部件,花大力气研究CPU,才能真正有属于自己的操作系统。不知道我国的把握计算机科学方向的人士是否能够这样想?
个人分类: 随笔|2547 次阅读|1 个评论
CPU架构之争:RISC的诞生与发展缩影
热度 1 iKnow 2014-1-29 23:19
推荐我们小组一位大四本科生黄博文写的关于过去30年CPU两种架构RISC与CISC之争的科普文章《RISC的诞生与发展缩影》。很难得这篇文章是出自一位90后的本科生,作者对计算机体系结构的发展史如数家珍,折射出他对这个领域的热爱和专研。我也很高兴这位学生就在我们小组。 如今据IDC统计,全球IT市场超过2万亿美元,而IT产业最核心的处理器芯片不仅自身构成数千亿美元的产业,而且按照摩尔定律——每隔18个月单位面积晶体管数目翻一番——在推动其他领域的快速发展。例如,如今很热的深度学习(Deep Learning)思想和技术方案其实在1980年代便已经提出,但当时计算机性能太弱而成了不可能实现的任务。过去20年多间CPU性能提高了10000倍,使得二十年前“不可能完成的任务”在今天成为了现实;又如摩尔定律不仅可以让芯片性能不断提高,也可以让芯片在性能维持不变的情况下面积与功耗呈指数下降,于是促成了今天繁荣的移动时代。有人称今天的一部iPhone 4的计算能力其实已经与1960年代NASA所有计算机的运算能力相当了。当然50年前NASA用这些运算能力将人类送上了月球,而现代人用这些运算能力在忙碌地计算愤怒的小鸟的抛射轨道…… 言归正传,CPU性能发展如此之快,20年一万倍,对此斯坦福大学的计算机科学家们收集过去40年的各种CPU,发布了一个CPUDB的数据库( http://cpudb.stanford.edu/ ),并进一步研究发现:过去20年半导体工艺与CPU体系结构的进步对CPU性能的飞速增长各贡献了一半。下面这篇博文介绍了几十年来CPU体系结构的发展缩影,而这一切的起点,正是从30年前的一场关于“CPU的RISC架构和CISC架构孰优孰劣”的争论开始的。 以下为全文: —————————————————————————————————————————————— RISC的诞生与发展缩影 黄博文 【注:本文缩减版已发表在 电脑报2013年第44期 A.新闻周刊 ,这个版本是写给实验室内部刊物《国重快讯》的加长版,写作过程中得到中科院计算所 包云岗 老师的大力指点,在此表示感谢。】 导语:RISC与CISC两大体系结构设计哲学的争斗已经成为大家耳熟能详的历史,但是RISC的由来,在学术界和工业界以外却很少见到有人提及。本文基于伯克利RISC项目领导者之一David Patterson的口述自传以及ACM数据库的公开文献整理,向大家介绍RISC从发明到广为流传的那段故事。 三十年前的论战 “我们认为,基于RISC理念设计的处理器只有在极少数情况下慢于CISC处理器……过多的指令使得CISC处理器的控制逻辑复杂……研发成本上升……编译器也不知道该如何利用这么复杂的指令集……CISC的设计思路应当反思。” —— RISC的早期倡导者之一,David Patterson “RISC与CISC的区别缺乏明确定义,而且RISC缺乏有力实验证明其宣称的优势,仅停留在纸面的设计是不够的,我们在VAX结构的设计中发现很多与RISC理念相反的地方……实验数据证明RISC的出发点有误……”—— CISC结构的设计者代表,Douglas W. Clark和William D. Strecker. 很难相信,观点如此背道而驰的两篇文章,竟然同时刊登在美国计算机学会旗下的同一期《计算机体系结构通讯》杂志上。但事实上,正是论战双方的私下联络以及杂志编辑的有意安排,使得这场1980年的论战得以见诸报端,于是留下了可供后人追溯的足够史料。双方都是杰出的结构设计者,这场争论可不是街边卖艺的龙套角色因为一言不合而大打出手的闹剧,CISC与RISC实际上代表着结构设计中的两大流派, 这场论战实际上是两大流派的旗手公开进行的华山论剑,渊源颇深。 在上世纪七十年代,内存容量和速度是性能的最大瓶颈,以至于程序的大小被作为执行速度的一个间接衡量指标,而指令格式不定长的指令集能够提供更高的代码密度,在同样的一块存储器空间里能装载更多指令,从而间接提高速度,加之当时的编译器无力进行寄存器分配,也无力配合微结构特征进行深层次的针对性优化,使得架构师们普遍偏爱内存-内存以及寄存器-内存风格的操作模式,连基于堆栈的指令集也一度流行。这些都是典型的复杂指令集(CISC)特征。 时势造英雄,在1980年前后,几乎所有的新处理器设计都在按照CISC的路线发展,惯性的车轮越滚越远,CISC不断加入新的指令,使用微码控制,试图在指令集架构层面对高层编程语言提供更直接的支持,这种发展路线使得硬件研发成本不断提高,研发周期变长,最终甚至殃及软件,连编译器都不知道该如何利用越来越复杂的指令集。CISC流派的不断前推,实质上是令体系结构在错误的发展方向上越陷越深。来自IBM研究院的John Cocke首先意识到,更加精简清爽的指令集设计将有助于减少硬件开发难度和成本,同时也有利于编译器进行代码优化工作,于是在他领导下的IBM 801项目第一次对RISC的概念进行了实践,这项起步于1975年的项目,直到80年代后才将成果公开发表,其中就包括改变了产业技术格局的graph coloring寄存器着色算法。稍落后于IBM研究院,来自加州大学伯克利分校,斯坦福大学的几位科学家也逐渐认清CISC的弱点,开始尝试反其道而行之,着手进行新的设计。那时刚刚博士毕业四年,在伯克利任教的年轻老师David Patterson就是其中一员,他决定在研究生课程中检验自己的想法,让学生们试着构建一个指令精简化的微处理器作为大作业。 图1. David Patterson ,已从当年不敢向伯克利申请职位的小老师,蜕变为计算机体系结构领域的宗师级人物 在微处理器流片成功之前,David就撰写了文章发表在《计算机体系结构通讯》上,描述自己构建处理器的新方法,认为这种精简设计将降低硬件设计成本,缩短开发周期,方便编译器进行代码生成,达到更高的性能,结果引起争论和质疑,于是有了这场载入体系结构发展史的论战。 反败为胜 ACM数据库收录的影印文档中保留下的点点墨迹,似乎象征着这场论战中四溅的火星。当时站在David对立面的人,包括当时深受尊敬的VAX CISC结构设计者Douglas W. Clark和William D. Strecker,David在文章中大量转述VAX的工程经验,试图证明RISC的优势,但VAX结构设计者们的现身说法使得局面对David非常不利,他们以自己的第一手数据将David文章中宣称的RISC优势逐一驳倒,而David手中并没有自己的硬件实测数据,十分被动。更加雪上加霜的是,第一组学生们流片回来的处理器,并未能体现出具备说服力的速度优势,其主频尚不到当时部分商业级芯片的三分之一,于是进一步引发了嘲笑。 所幸第二组学生进行的设计较为成功,于是David和学生们的成果得以登陆1983年国际固态电子电路大会(ISSCC)进行展示,这个会议只接受流片成功的芯片设计投稿,因此门槛较高,同时也因为成果卓越,受到学术界和工业界的广泛关注,是集成电路领域的顶级学术会议。David在这里打了一个漂亮的翻身仗,尽管制造工艺是老旧的MOSIS,主频仍旧比VAX,摩托罗拉,Intel等竞争对手同期制造的处理器慢上几乎一半,晶体管数量也只有几分之一,但是更加清爽的新式设计在编译器等其他工具的辅助下竟然将来自工业界的竞争对手们尽数击败,完成了漂亮的反击。David领导的学生团队凭借这一全新理念进行的课程设计,仅有区区几十条指令,竟胜过指令数目多达几百条的商业级芯片,这一事实对于CISC流派的支持者们是极大的冲击,ISSCC大会现场所有的大牌人物都目睹了这一历史性时刻,业界哗然。RISC提倡简化指令集设计,固定指令长度,统一指令编码格式,加速常用指令,在当时来看与当时占据主流的CISC哲学颇有些背道而驰的意味,RISC和David Patterson早年受到质疑和攻击也就不难理解。但有了流片成功的芯片与硬件测试结果在手,加之1983年的ISSCC大会上聚集了几位与David Patterson观点相同的支持者,RISC流派已经开始占据上风。 图2.当时流行的 VAX 计算机 风靡业界 出于兼容性的考虑,David和学生们设计的芯片从未流入商业市场售卖,但是在David等人的推动和宣传下,RISC的设计理念随后如星火燎原般扩散,一大批公司开始采用这种理念设计新处理器,包括后来几近统一武林的Intel。而当初提倡RISC的先行者们也纷纷功成名就,John Cocke在1987年将计算机科学领域的最高奖项“图灵奖”收入囊中,而David Patterson在芯片设计与计算机体系结构领域也已经与“泰山北斗”划上等号。 图3. ARM就是典型的RISC处理器 RISC的设计理念催生的一系列新结构中包含了许多我们耳熟能详的名字,包括学术上认为比较成功的DEC Alpha,后来写入经典教科书的MIPS,绕过指令级并行度障碍,追求线程级并行的SUN SPARC,以及现在统治嵌入式市场的ARM。这些雨后春笋般涌现的RISC处理器将CISC vs RISC的世纪之战推向更高潮,复杂指令集和精简指令级划分为两个阵营,争论不断。以x86为代表的复杂指令集,其指令编码格式混乱,导致编码器复杂,流水线设计较为困难,指令不定长也带来指令对齐方面的额外挑战。而RISC指令集的编码格式相对整洁,流水线设计容易,但是由于指令定长,导致一些比较大的常数\地址必须拆散才能加载,代码密度不够高,某些情况下会浪费指令缓存的容量和带宽,因此两种指令集都不是不败金身,本质上都属于双刃剑。在计算机体系结构还未发展成熟的时候,内存与编译器的缺憾给CISC留下了立足之地,但随着编译技术的进步以及存储体系的进化,程序大小所带来的间接优势越来越不明显,而RISC指令集上能够简化流水线设计,这项优点对架构师们反倒越来越具有吸引力,以至于连Intel都举棋不定,只得两条腿走路。Intel在继续更新CISC产品线的同时,也推出了i860系列RISC处理器,安迪•格鲁夫当时表示,CISC处理器是Intel一直在做的产品线,兼容所有软件,而RISC处理器速度更快,但没有什么软件能在它上面运行。连Intel都不知道未来发展方向会是在RISC还是CISC,只好两头下注。在风头最劲的时候,RISC处理器一度在服务器市场占据统治地位。当时的争论与工业实践中提炼出的RISC优势,直到现在仍被许多人谈论,但是,历史的进步无情地碾碎了这一切。 融为一炉 强大的Intel进入90年代后开始逐渐发力,追赶性能领先的RISC阵营,在90年代中期的P6结构里,Intel引入了乱序多发射技术,从微结构的角度上看,这标志着 Intel已经在CISC阵营中拔得头筹,但与当时RISC阵营中的旗舰之一MIPS R10000相比仍有不足,与另一龙头DEC Alpha更无法相提并论。值得一提的是,P6第一次实现了CISC指令集在解码阶段上向RISC类指令的转化,将后端流水线转换成类RISC的形式,弥补了CISC流水线实现上的劣势。许多人认为这是Intel在向RISC指令集学习,是在事实上宣布了RISC的胜利,可是ARM也于同期引入了代码密度更高的Thumb新指令集,力图提高指令缓存等劣势项目上的效率,这表明RISC也在向CISC取经,双方都在相互取长补短。而RISC风格的设计的确能输出速度优势,这在一部分人心目中催生了错误的RISC优越论。实质上随着体系结构和微电子技术的进步,CISC在结构上的所谓劣势逐渐缩小,乃至消失, 而RISC阵营却在Intel的猛攻下节节败退,时至今日,Intel的服务器CPU占据了95%的市场份额,RISC的优越论也逐渐偃旗息鼓,大家开始转而关注微结构与物理设计实现,并发掘操作系统、编译器与上层应用当中埋藏的可能性。 图4. 在P6 这一微结构中, Intel 第一次引入 RISC 风格的流水线 今年的国际高性能计算机体系结构大会上,来自美国威斯康辛大学的一个研究小组做了一个测量分析报告,根据他们披露的测试数据,CISC与RISC在指令集架构层面上的差异已经被弥合,在Cortex-A8以上级别的处理器中,由先进的微结构和物理设计、工艺实现带来的改进足以掩盖指令集架构层面的劣势。因此我们可以说,CISC vs RISC的世纪之战实际上没有胜负,双方的精华已经融为一炉。结果这个报告受到一些学者的批评,有意思的是,批评的原因并不是在于报告本身结论错误,而是因为这个报告所得出的结论,其实是大家早都已经认可的共识,没有必要再在大会上宣读! 如何评价一个结构设计理念是好是坏呢?笔者认为,应当是后人们看来理所当然的 —— “为什么不这样做呢?还好当初没有放弃这条路!”今天我们谈到RISC留下的遗产时,已经很难找到负面评价的理由,RISC不再是缺乏支持的异类,而是现代计算机体系结构的基本组成部分之一,没有人再对RISC存在的必要性提出怀疑,这大概就是对它最好的认可。 参考文献 Douglas W. Clark and William D. Strecker. Comments on 'The Case for the Reduced Instruction Set Computer,' by Patterson and Ditzel . ACM SIGARCH Computer Architecture News, 1980. 8(6), pp. 34-38. David A. Patterson and David R. Ditzel. The case for the reduced instruction set computer . ACM SIGARCH Computer Architecture News, 1980. 8(6), pp. 34-38. David A. Patterson and Carlo H. Sequin. RISC I: a reduced instruction set VLSI computer . 25 years of the international symposia on Computer architecture (selected papers), 1998, pp. 216-230. David A. Patterson. Reduced instruction set computers . Communications of the ACM - Special section on computer architecture, 1985. 28(1), pp. 8-21. John Mashey. Oral History of David Patterson. 2007 Linley Gwennap. Intel’s P6 Uses Decoupled Superscalar Design . Microprocessor Report, 1995. Emily Blem, Jaikrishnan Menon, and Karthikeyan Sankaralingam. Power Struggles: Revisiting the RISC vs. CISC Debate on Contemporary ARM and x86 Architectures .19th IEEE International Symposium on High Performance Computer Architecture, 2013.
个人分类: 科研点滴|35065 次阅读|1 个评论
我的无偿代培博士研究生声明
热度 4 accsys 2013-11-26 04:54
清晨 3 点多,没有了一点睡意。好长时间都喜欢这时思考问题。今天突然想起下面一段话: 计算机系统结构的导师们: 如果您的博士生需要研发CPU从无到有的设计技术,或者想学习片上动态异构多核CPU设计方法,请让我来帮助你培训一段时间如何? “你有资格,我有技术,如果需要,我来替你代培研究生。” 这是我想好的一段广告词。 说起来很有意思,搞了一辈子计算机设计研究,研究生的课程也没少上,只是却没有自己招过研究生。不说原因了吧,只是最近又想过把瘾,就想起了这段广告词。 近段时间身体大好。于是又继续了我的动态计算机研究,并着手成立一个公司,要实际生产“片上动态异构多核 CPU ”,简单地说就是动态 CPU 。为了未来公司的掌门人,随后想到了这个两厢情愿的想法。 姜太公钓鱼,愿者上钩。 我的邮箱是: accsys@126.com
个人分类: 教学点滴|4559 次阅读|14 个评论
刚开始接触matlab并行计算,多核多线程设置
热度 2 tu312 2013-3-4 16:56
刚开始接触matlab并行计算,以前旧电脑从不考虑这些的 小本i7四核八线程16G内存,64位win7和matlab 2012b,任务管理器显示有8个框 当用普通for循环,只有一个框接近100%,cpu使用率只有12%左右 默认配置下,键入matlabpool,右下角提示4个 然后使用parfor,进程中也能看到5个叫做matlab的,一个接近400M,其他4个接近200M 但为什么只有4个框接近100%,cpu使用率只有50%左右?如何充分使用资源 使用matlabpool 是建议1个核(core)对应一块pool(worker)所以建议出现默认4个,可以试下, setenv('OMP_NUM_THREADS', '8'); 或 setenv'OMP_NUM_THREADS'8 getenv 'OMP_NUM_THREADS' 图形界面的设置如下Home-parallel-mange cluster profile,修改NumWorkers为8,再次打开matlabpool,右下角显示8,运行cpu100%满负荷 顺便说下,小本风扇顿时惨厉的狂豪;内存共9个叫做Matlab的,一个主的接近3G,其他8个接近200M,我的16G内存快接近一半了
57272 次阅读|8 个评论
[转载]且让世界听龙吟: 理实交融的龙芯基础研究
热度 1 sheep021 2012-10-25 20:01
转贴自龙芯论坛,网友HSWZ 且让世界听龙吟:理实交融的龙芯基础研究 本帖最后由hswz于2012-4-22 20:50编辑 2007年,龙芯3号的设计揭开序幕,当被人问到龙芯3号的意义时,胡伟武老师微笑不语,提笔写下一行字, “如果说龙芯1号是在迷雾中起步,还看不到先行者的影子,那么龙芯2号完成后,在当时实际上已经超过了一些同行者,看清了领先者的背影,而龙芯3号的完成将使龙芯大踏步赶上并超过领先者。 ” 四年时间过去,龙芯3号已经从设计变成现实,并已发展出一系列改进型号。依托龙芯3号的研发,龙芯团队已经实现了胡老师的预期,走在了世界体系结构研究的最前沿。从2008年开始,龙芯在顶级会议和期刊上发表了一系列论文: IEEE Trans. onComputers、IEEE Micro、ISSCC、I S C A、H P C A、I J C A I、H o t Chips、SPAA和DATE等等。可以说,相比美国顶尖大学的一个研究组的论文发表水平也毫不逊色。更重要的是,龙芯的研究已经形成了鲜明的理实交融的风格。 十年砺刃度清苦,一朝亮剑破敌阵。龙芯的研究也已经走过了十年的历程。无论前六年的求实探索,还是后四年的风云激荡,都是龙芯乃至计算所宝贵的积累。围绕着一个个芯片型号的工程实践,龙芯研究走了一条求真、求实、不取巧的最难走的研究工程紧密结合的路。龙芯研究水平的提高,是龙芯工程水平提高的体现和保障。龙芯最宝贵的研究财富,不是一些论文或者学术影响力,而是走通这条理实交融的路:我们的研究问题和方法,不是来自于外国人的论文,而是来自于自己的工程实践;而从我们的工程实践中提出的理论,能够在龙芯实践中真正发挥作用。笔力所限,我们无法展示这条路上每一次披荆斩棘。在此只能罗列几个闪亮的瞬间,以飨读者。 龙芯3号体系结构 早在龙芯2号的设计过程中,胡伟武老师就开始了对龙芯3号结构的构思。和单核的龙芯2号处理器相比,多核的龙芯3号的设计选择更加的多样化。要有多少个核,每个核的规模有多大,怎样把核联起来,每个核应该支持哪些应用?这些问题在胡老师心头萦绕了很久。的确,这些问题无论是学术界还是工业界都没有定论。龙芯已经不再跟着别人的脚步奔跑,必须直面这些世界前沿水平的学术和工程问题。 从什么角度来回答这些问题,从中找到一条适合龙芯发展的道路呢?胡老师的思路是清晰和一贯的,那就是市场才是体系结构研究好坏的最终标准。学术界和工业界最终都必须回到这个标准上。普通用户并不需要那么多核,他们更希望有少数很强大的核帮他们解决棘手的问题。同时,科学计算的用户又需要处理器提供一定程度的可扩展性。基于这两点考虑,胡老师采用了交叉开关加Mesh两维网络的多核结构,每个核具备较强的计算能力,同时提供x86虚拟机的支持。这样兼顾了普通用户和科学计算,给龙芯3号留下了广阔的扩展空间,同时又为x86上大量的应用提供了支持。 五年前的这个抉择,给龙芯3号的发展指出了正确的方向,奠定了良好的基础。沿着这个方向胡老师带领高翔、陈云霁等技术骨干加班加点,完成了首款龙芯3号芯片芯3A的结构设计。龙芯3A在x86模拟、可扩展互联方面的特点,被高性能芯片顶级会议Hot Chips08(大陆第一篇)和体系结构领域顶级期刊IEEE Micro收录。可以说,龙芯研究路线的开创性和实用性是得到了广泛认可。Intel最终采取了和龙芯类似的技术路线,也就是少量大核(Nehalem)。去年,Intel决定停掉他们大量小核的计划Larrabee。他们也承认,没有用户愿意为32个以上的核买单。 创新是永无止境的。龙芯3A在学术上受到的关注并没有让龙芯人裹足不前。一般来说,通用处理器相对专用芯片来说性能功耗比比较差。一些龙芯3号的重要客户,需要龙芯3号能以超过DSP的性能功耗比完成一些重要的信号处理应用。如何突破通用处理器的桎梏,让龙芯3号在较低的功耗上达到极高的性能呢?胡老师时常感慨,“客户提出来的问题,比论文里面的问题难多了” 。是的,但是龙芯的精神就是越难的问题就越要上。胡老师带着期许将这个艰巨的担子压在了年轻科研人员陈云霁的身上。陈云霁对CPU、GPU、MPU和DSP等芯片结构的异同进行了深入的思考,试图找出CPU性能功耗比差的本质原因。通过和胡老师的反复讨论,他们最终发现,通用处理器问题不在于计算部件不行,也不在于访存部件不行,而是访存部件的数据没有办法以合适的格式很舒服地喂给计算部件,很多带宽和时间都浪费在捣腾数据格式上了,最终导致性能功耗比差。因此,他们提出了XPU的结构,让处理器在数据通路的每个阶段都能自动地对数据进行重新组织,这样计算部分就能全负荷地开足马力,一下子就解决了性 能功耗比的问题。同时XPU作为CPU、GPU、MPU和DSP的融合,可以实现很多传统CPU不适合解决的问题(如信号处理、媒体处理等)。 XPU技术应用到龙芯3B上,使得龙芯3B性能功耗比达到了惊人的3.2GFlops/W(Intel的Westmere大约1.3GFOPS/W,BM的Power7大约1.5GFLOPS/W),居目前世界上所有通用处理器第一位。相关工作发表在HotChips10和集成电路领域最好的会议,号称集成电路的奥林匹克的ISSCC11上。可以说,龙芯3B标志着龙芯处理器真正走到了世界最前沿。 全局时钟并行理论 多核处理器系统设计验证中一个无法回避的关键问题是如何判断并行程序在多核处理器上的执行结果是否正确。这个NP难问题就像拦路虎一样阻挡在每一个多核设计者面前。事实上,Intel、IBM和Sun等国际大公司在他们的处理器设计过程中,都被并行执行正确性判断问题深深困扰。他们始终都投入了大量精力进行研究,在ISCA、HPCA和SPAA等顶级会议上进行大量讨论,但始终无法从根本上解决这个问题。 在龙芯3号的研制过程中,并行执行正确性判断问题也横亘在龙芯人面前。如果不能取得突破,就意味着每次在龙芯3号上跑一个程序要花几千万甚至上亿倍的时间来检验跑得对不对。面对这个前人无法克服的挑战,陈云霁及验证组多位同志反复推敲,在经过许多个不眠之夜后,终于找到了问题的源头:并行执行正确性的判断构建于Lamport在70年代末并行理论基础逻辑时间序之上,也就是仅考虑并行系统中的因果性。经过反复讨论,他们提出采用一个全局时钟上的物理时间序把整个问题切割成多个片段,从而实现分治求解。通过物理时间序的概念,成功地将这个问题时间复杂度从指数级降到了 2O(n )。该论文最终被体系结构领域顶级学术会议HPCA’09接收,是该会议第一篇来自大陆的论文。紧接下来,他们在胡老师的指导下乘热打铁进一步把复杂度降到了O(n),从而彻底解决了这个困扰体系结构学术界和工业界十多年的大问题。相关工作也被计算机领域顶级期刊IEEE Trans. onComputers收录。 物理时间序的想法乍看起来十分不符合常理,以至于HPCA’09的多位审稿人都表示从未见过此类想法。学术权威Lamport早就说过,分布式系统里就不要考虑物理时间序了,还是依靠基于因果关系的逻辑时间序吧。因此,这个观念已经根植于并行理论的骨髓中30年了。龙芯人没有畏惧权威,止步不前的传统。但是打破传统观念除了需要勇猛无畏,也需要细致入微。在HPCA’09之后,陈云霁请来专门从事理论研究的陈天石(当时还是科大博士生),二人通过反复讨论终于悟到前人没有想到物理时间序的原因。原来,在分布式系统中,由于进程之间的物理距离较大,要获得准确的、同步的全局物理时间是极其困难。然而当代的多核处理器已经能在一个芯片上集成多个处理器核,实现全局物理时钟是易如反掌。不幸的是,早期研究中多处理器系统通常被简单地当成分布式系统的一个特例,几十年来这种思想桎梏了对多核处理器中时钟和序关系的研究,严重阻碍了并行领域的发展。 一旦破除了仅有逻辑时间序的传统观念,并行领域中的许多问题就迎难而解。在不长的时间内,龙芯连续发表了多篇有关并行系统中时钟的工作,包ISCA’10(计算机体系结构最好的会议) 、DATE’10(EDA领域顶级会议)和SPAA’11(并行理论最好的会议)上。其中ISCA10的工作有人评价为“终结了硬件确定性重放” 。 人工智能和体系结构的结合 2011年3月31日,IJCAI’11组委会发出正式通知,龙芯的一篇由郭崎等人发表的关于微处理器设计空间搜索论文被录用为regular paper,并受邀同时参加oral和poster presentation。IJCAI全称是人工智能国际联合大会,是人工智能领域最好的会议,此次会议录用率仅为17%。微处理器中心的这篇文章是计算所的在该会议上发表第一篇oral presentationpaper论文(此外计算所还在IJCAI’11上发表了三篇poster)。听起来,人工智能和体系结构天差地远。为什么龙芯要在二者的结合上进行研究呢?这就要回溯到很多年前。 从龙芯项目一开始,龙芯的设计人员就在工程中始终面临着一个重要的问题:如何找到一个最合适龙芯的设计参数组合?无数个设计选项构成了指数级的设计空间。例如龙芯应该有多少寄存器,多大的访存队列,多少项保留站,等等等等。在庞大的设计空间中,找一个最优方案无异于大海捞针。郭崎和陈云霁在这个问题上花费了大量的时间和精力,始终未能解决这个难题。 转机发生来自2010年。人工智能理论研究方向的能手陈天石博士从科大毕业加入到龙芯团队中。当他了解到龙芯面临的设计空间搜索问题后,一下子就和龙芯已有的研究摩擦出了火花,提出人工智能中的半监督学习方法,很可能可以解决这个问题。有了这把人工智能的快刀,设计空间搜索的乱麻一下子就被解开了。郭崎等人通过大量实验发现,半监督学习方法极大地降低了搜索的误差。通过和南京大学的周志华老师的深入交流,他们在人工智能方法上又得到了进一步的提高。人工智能领域对于这种重要的体系结构应用很感兴趣,而新颖的人工智能方法又促进了体系结构的研究。顺理成章地,这个工作被投稿到IJCAI之后,很快就得到了认可。 除此之外,人工智能方法更是进一步在龙芯的设计验证各个环节得到了广泛推广,例如郭崎和陈天石等人合作的另一篇论文,通过机器学习方法而不是传统的覆盖率来预测和评估验证的质量,也发表在EDA领域顶级会议DATE上。 理实交融的龙芯基础研究 一腔赤诚血,十年风雨路。在产学研结合的路上,龙芯的研究从工程中来,到工程中去,源于工程,高于工程,逐渐形成了理实交融的龙芯基础研究思路: 不拘泥于结构研究的小框架,而是立足于工程实践,从应用算法往下做结构或者从底层电路往上做结构,辅以编译、操作系统、验证等技术的支持,极大的拓展了结构研究的视野和方法,取得了丰硕的成果。迄今在龙芯基础研究中涌现的研究,不跟在洋人后面亦步亦趋(龙芯的大量顶级会议期刊论文在没有国际合作的情况下,依然得到广泛认可,随着更多国际合作的接踵而来,龙芯研究必将给国际主流研究注入自己的特色)而是解决自己现 ,在遇到或将要遇到的问题。其所解决的龙芯3号中的问题,正是整个体系结构领域也要面对的问题。龙芯的工程使得龙芯人能更早于学术界一步得到实践的反馈。 尽管龙芯基础研究已现鲜明特色,然而对龙芯人来说,这些还远远不够。胡老师的理想是龙芯在研究上像Bell实验室和IBM的Watson实验室一样,为人类科技进步作出突出的贡献。实现这个理想很艰巨,需要在计算机体系结构方面、 整个计算机领域(包括理论计算机、人工智能和操作系统等)、乃至自然科学(包括材料甚至物理)的最前沿做出实质性贡献。为了实现这个目标,胡伟武老师决定筹划成立专门的基础研究部门。必须看到,面对繁重的产业化任务,龙芯人把绝大部分精力都投入到紧张的工程开发中,因此目前龙芯并不提倡占用工程时间进行研究(除了面临毕业的博士生) ,这些顶级论文也都只是龙芯人利用晚上或者周末进行的业余创作。随着龙芯专门的基础研究部门的成立,龙芯理论研究的春天即将开始
个人分类: 3S(GIS GPS RS)|2330 次阅读|1 个评论
BYT-ON – World's first graphene-based processor
plgongcat 2012-9-17 19:54
Digital Core Design , the world-famous design laboratory in Bytom, Poland, has developed the world’s first processor made of graphene – the BYT-ON. Discovered in 2004, graphene is an allotrope of carbon. Its structure is one-atom-thick planar sheets of carbon atoms that are densely packed in a honeycomb crystal lattice. Graphene differs from most conventional materials. Intrinsic graphene is a semi-metal or zero-gap semiconductor. The E-k relation is linear for low energies near the six corners of the two-dimensional hexagonal Brillouin zone, leading to zero effective mass for electrons and holes. Due to this linear dispersion relationship at low energies, electrons and holes near these six points behave like relativistic particles described by the Dirac equation for spin 1/2 particles. The end result is that graphene-based conductors can transport electronic signals at relativistic speeds, while graphene-based transistors can switch many orders of magnitude faster than their conventional silicon-based counterparts, all while consuming minimal power. In fact, graphene is such an amazing material that the Nobel Prize in Physics for 2010 was awarded to Andre Geim and Konstantin Novoselov at the University of Manchester "For groundbreaking experiments regarding the two-dimensional material graphene" . Use of graphene in Digital Core Design’ BYT-ON processor represents a breakthrough in electronics. The traditional silicon structure used to build conventional integrated circuits has been replaced with polycyclic aromatic hydrocarbons. “We commenced our tests just before the end of 2011, and the results far exceeded our expectations,” notes Tomasz Ćwienk, the spokesman for Digital Core Design. "We replaced the existing processor in one of the newest tablets available on the market with our graphene-based BYT-ON processor. We knew that the BYT-ON’s power-consumption was going to be minimal, but we were amazed to discover that the tablet ran all the way from the beginning of January 2012 until the end of March 2012– three full months – without our having to recharge the battery.” These revolutionary results were possible due to the combination of the Digital Core Design’s proprietary architecture (which is the outcome of 12 years of the company’s experience) and the graphene itself, which opens new possibilities for the electronic industry. The architecture implemented in the BYT-ON processor is called CISKoRISK 2nd Generation – it performs all operations with speeds reaching up 99.13% the speed of light, while maintaining 99.85% lower power consumption than conventional silicon-based equivalents. Editor’s Note: The rumor on the streets is that the world’s top ten FPGA vendors are already in secret consultations with Digital Core Design with regard to the application of the BYT-ON’s underlying graphene transistor structure as the basis for next-generation FPGAs. One tremendous advantage of this technology for FPGA applications is that memory cells (including configuration cells) constructed out of graphene transistors switch orders of magnitude faster than SRAM, have orders of magnitude higher density than DRAM, and the non-volatility of Flash, all while consuming almost zero power. Furthermore, graphene-based transistors are immune to radiation events, making this technology ideal for aerospace applications including deep-space probes. From: http://www.eetimes.com/electronics-blogs/pop-blog/4370188/BYT-ON---World-s-first-graphene-based-processor--graphene-based-FPGAs-to-follow-
个人分类: 新材料|3339 次阅读|0 个评论
linux下查看cpu及操作系统信息
lanlin 2012-2-19 19:57
# uname -a Linux ylin-ThinkPad 2.6.32-37-generic #81-Ubuntu SMP Fri Dec 2 20:35:14 UTC 2011 i686 GNU/Linux 查看当前操作系统内核信息。如有i386或i686字样,则操作系统内核为32位,如有x686或x86_64,则操作系统内核为64位。 # cat /etc/issue Ubuntu 10.04.3 LTS \n \l 查看当前操作系统发行版本 # cat /proc/cpuinfo |grep name |uniq -c 4 model name : Intel(R) Core(TM) i7-2620M CPU @ 2.70GHz 说明有4个逻辑cpu,并有cpu的详细型号 # cat /proc/cpuinfo |grep physical |uniq -c 1 physical id : 0 1 physical id : 0 1 physical id : 0 1 physical id : 0 实际上只有一个物理cpu(四核的)。 # cat /proc/cpuinfo |grep flags |grep lm |wc -l 4 结果大于0,说明cpu支持64位,lm代表long mode,即支持64位 # getconf LONG_BIT 32 说明当前cpu在32位模式下运行,但并不代表不支持64位。 从以上几个命令的运行结果判断,该机器有一个四核cpu,支持64位,但目前在32位模式下运行,因为操作系统内核为32位。 注: #后面表示终端输入命令 修改自: http://www.360doc.com/content/11/0907/17/3200886_146500176.shtml
个人分类: 分享收藏|9397 次阅读|0 个评论
科研生活:向CPU学习
热度 32 stone1971111 2011-12-22 08:01
科研人生活在社会中,自然不能摆脱社会生活的干扰。 做研究并不是比拼智商和知识,而是一种系统性的行为。 怎么处理社会事务,怎么执行科研理念,这些都是对于每一个做科研的人需要重点思考的问题。CPU是计算机的核心部件,是人类发明制造的,但是在很多方面,CPU是我们的榜样,也有我们需要吸取教训的地方。 一、执行任务的纯粹性。 CPU在执行一条指令的时候,其他的事情都会放在一边,专心致志的执行。尤其是单片机,更是如此,其他中断都要推迟处理,执行就是执行。这一点对于做科研的人来说是非常重要的。我们从事科研工作,往往不会只做一件事情,总有各种事情需要同时处理,比如,亲情,友情,读书充电,实验,写报告,授课。。。。。,这些事情想起来头都大。太多的任务让我们忙的团团转,有时候甚至不知道该如何处理。做实验的时候想着报告的事,读书的时候想着其他杂事。越是这样,我们越是觉得混乱,以至于每一件事都没有得到很好的处理,越来越觉得很被动。其实,向CPU那样是最好的处理方式。 当我们处理一件事情的时候,就把其他事情完全放在一边,专心致志的处理手头的事情,往往效率很高。 而且当从一个任务切换到另一个任务时,完全从一个任务的状态切换到另一个任务的状态,不受前面的干扰。我们有时候往往是瞻前顾后,不能很纯粹的处理事情,效率就变得很低下。 二、执行任务的流水作业方式。 所谓流水作业就是把多个任务分解成若干环节,同时进行处理,任务前后有很好的衔接,并不是串行处理的,效率大大的提高。有时候,一个CPU的性能高低很大程度上取决于流水线的深度,如果能做到10级流水,那性能基本上可以提高接近十倍。我们处理科研生活中的事情的时候,往往并不能一蹴而就,往往是需要一定的时间跨度,这就使得我们必须学会在一段时间内面对多个任务的复杂情况,学会流水处理很关键。比如读书,这是个长期的任务,很多同学觉得光是科研任务就已经给够多了,哪里还有时间去读书呢。事实上,我们每天都会有大量的看似垃圾的时间,那些时间没有得到充分的利用。见缝插针,就可以有读书的时间。而且很多书不是一下子就能读完,就要学会随时能够拿起来读书,也能够随时放下,学会断点续读能力,对于读书是非常重要的。 流水作业的方式充满了计划性和协调性,即便我们同时做好多件事,似乎也不会手忙脚乱。 三、执行任务的软硬结合方式。 好的CPU不仅仅依靠很基本的指令集,往往在内部预先用硬件电路实现一些较为复杂的处理部件,比如多媒体处理中的一些重要任务,这些任务需要很快的速度,靠基本的指令集去搭建执行过程,往往需要很多个时钟周期才能够实现,效率不高,而靠硬件实现,可能一个指令周期就实现了。比如乘法器,如果都用加法指令重组,那是效率比较低的,实际上大多数CPU的乘法是硬件实现的,可以在一个时钟周期内得到实现。我们工作生活也是这样,对于我们最重要的事情, 我们要学会把这些任务固化成我们的本能,在最短的时间内就能够执行完毕 ,而不需要按部就班的用多个任务构建。对于其他一般的任务,学会CPU的指令集处理方法,搭建自己处理事务的指令集,对于大多数任务直接由指令集编程实现,这样就不至于束手无策,并且可以做到井井有条。 四、存储的有效调度。 CPU的存储分成至少两类,一类是缓存,存储量小,效率非常高,是执行指令的常用存储,另一类是静态存储,存储量大,但是读写效率低。有效的在两种存储之间进行交互,是非常重要的技巧。我们处理科研生活任务的时候也需要类似的能力。我们大脑的存储似乎也有两种功能,就是缓存和静态存储能力。深度挖掘缓存的效率,巧妙的将自己的信息轮流在两个不同的存储状态切换,对于我们执行任务的效率是非常重要的。 对于不同的任务,需要将不同的信息调入缓存,而把不需要的信息扔掉或者转入静态存储备用。 五、CPU需要升级。 随着应用的增加,CPU的处理能力往往跟不上应用的需要,就需要升级。从结构上,从材料上都要进行升级。人也是一样的,只要我们还希望不断地进步,那就需要不断地升级自我,有时候甚至是整个体系结构的大变化。我们大多数人往往容易陷入过去成功模式的陷阱中,往往容易用有限的经验无限的推广到未来的工作中,这都是失败学的经典内容。 我们需要在适当的时候升级我们自己,这个能力在任何时候都可能会用上。 六、CPU需要其他配件配合。 CPU本身并不构成一个应用系统,需要很多外围器件的配合才能工作,100个CPU放在一起就是100个CPU,还不是计算机。CPU和其他配件需要完善的协议以便进行沟通协调。做人也一样,能力再强的人也不能完全独立办成一件像样的事情,都需要外围条件的配合,尤其是很多大的课题,更需要一堆很有能力的人有效组合。 学会跟不同的器件通信,构建相应的通信协议是非常关键的。学会合作,善于合作,对于今天的科研工作尤其重要。 七,CPU需要优化,再好的CPU也需要使用技巧,好的程序和差的程序效率可能相差100倍以上。做人做事也一样,时刻关注自己的处理事情的方法,不断地优化,将会取得意想不到的效果。 尽管CPU是人类的发明,但是人类在很多方面做的并不比CPU更好,甚至比不上CPU。我们有智慧,但是我们的智慧没有得到很好的发挥,这是我们需要反思的地方。 如果我们具备了CPU的几种优点,那么我们的科研生活将会得到非常好的回报,而我们也应该感觉到生活如行云流水。
个人分类: 空闲时光|9960 次阅读|67 个评论
[转载]简谈日本CPU的发展道路——关起门来自己爽
热度 1 sunapple 2011-10-7 23:11
作者:愚蠢小猪 foolishsmallpig@hotmail.com 近一段时间忙,没有时间写文章。其实是文章好写,资料难收集。不久前在网上看到一篇文章《尴尬中国芯:龙芯CPU的艰涩之旅》,感觉到龙芯CPU前途很不妙。正好自己的工作与CPU有些关联,正好轻车熟路写写日本CPU的发展。对照看看龙芯CPU为什么会陷入困境。 说到日本的CPU,很多人会问,日本有CPU吗?确实,我们日常接触的计算机基本都是wintel,CPU基本都是美国公司的。其实日本有很多种CPU,在中国也被广泛应用,只是我们很难看到它,被嵌入了,不象有个什么“Intel inside”的牌子。当然,在中国嵌入式开发领域,日本CPU的应用也比较少,低端的多为51、PIC、AVR系列,高端的则是ARM一统天下,总之是八国联军。我想大概是因为日本CPU的相关支持工具和文档资料大多用日文写的,一般中国人看不懂。相比之下,欧美的CPU就比较好接受。看起来,CPU这东西,自己的文化弱了,推广起来也比较困难。不过,在日本,日本CPU绝对是主流,从低端到高端。从我使用的情况看,比欧美系的CPU好用,功能全面集成度高。日本的CPU大概叫关起门来自己爽。 谈CPU先要谈与CPU直接相关的基础产业——半导体。日本的半导体产业起步不算早。直到70年代初,日本半导体需要量的7-8成还需要依靠进口。当时中国正处于文化大革命,经济崩溃,知识分子被关牛棚,工农兵大学生和外行领导内行导致科研机构一片混乱。即使这样,日本当年还需要从中国进口半导体制造设备。 这时候,日本的电电公社,现在NTT的前身,相当于中国电信,发挥了很大作用。电电公社坚决采购国产电话交换机,并坚持使用国产的半导体,组织协调日本的半导体企业协作攻关。反面则是电电公社搞垄断,高昂的电话初装费和软预算赤字财政。1976年,日本政府成立半导体的国家实验室,国家的力量进行攻关。国家战略的结果,使日本半导体生产技术达到了世界领先水平。 国家扶持和计划,使日本半导体产业与美国有很大的不同。最大的特点是大而全,小而全,自产自销。在初期,半导体的生产几乎100%在本企业或本集团内消费了。即使现在,也有很大比例是在本企业本集团内消费。这与美国半导体企业基本外销很不相同。比如,日立生产的半导体,很大比例在日立集团内部消费了,如日立的家电、精机、重机、工厂等等。而Intel的半导体则很少自己用,绝大多数都卖给其它用户。原因是日本半导体的起点低,性能质量价格面并没有优势,只能自产自销,大而全小而全,发展半导体是作为国家及本企业集团的战略,而不是一时的经济效益。要经济效益还不如直接买美国的。 日本的这种做法,引起美国的不满,认为这是计划经济违反了市场经济规律云云。日本人也颇不满,自己的电电公社虽然搞软预算赤字财政,毕竟还是企业。而美国的国防部则完全是软预算,完全不讲经济效益。就中国是市场经济的信徒,在日本半导体突飞猛进的时候,中国迎来了改革开放的春风,引进市场机制的葵花宝典,半导体产业就挥刀自宫了。同时自宫的产业还有很多。自宫的结果,使中国这近30年取得了世人瞩目的经济成就。欲练神功需要挥刀自宫,这是颠扑不破的真理。 国家战略和计划的引领下,日本半导体生产工艺突飞猛进,但需要高超设计技巧的CPU却没有很大突破。中国经历了10年文革的摧残,1977年研制成功了专用的弹载16位CPU。美国的CPU在1970年代末期形成了Intel的86系和Motorola的68系CPU。两强争霸,都想扩大市场占有率树立事实上的标准,但又受限于产能不足。于是找到日本厂家,日本厂家以许可证方式生产与美国兼容的CPU,作为第二供货方,这是日本CPU的起步。 日立承接的是Motorola的MC680X和MC68000,日立生产的MC68就叫HD68。NEC则承接Intel的86,形成V20、V30系的CPU。日本没有与国际接轨,融入国际社会的心思,喜欢自定标准,自搞一套。当80年代初IBM PC风靡全球时,日本自搞了一个PC98。手机也是自成系统。这以中国不同,在中国与国际接轨是政治正确,雄心壮志早被阉了,想自立体系想都不敢想。当然,PC98最终没有抵抗住IBM PC,在几年前还是最终放弃了,但毕竟日本曾经奋斗过,很多事也是谋事在人成事在天,但奋斗的心不能死。 1984年,作为日本国策的TRON项目开始实施。TRON项目是集计算机OS和CPU设计一体的大型计划。涵盖的目标非常广泛,从实时控制到桌面系统,从工厂自动化到商业应用,无所不包。目的要建立日本独立的计算机软硬件体系。即阻止外国系统对日本的渗透,又想在世界中树立日本的标准。 1984年也是中国关键的一年。是年年底,通过了城市改革的决议,拉开了城市改革的序幕。这一年还是“鬼门关”,无论项目是否成功,这一年都必须下马停止。时隔20年后,许多项目才重新开始,或者再也没有可能开始了。这一年大概可以称为中国的“自宫年”。中国需要集中精力发展经济,改善生活。我们的目的是喝水,再也不能干挖井的蠢事了,这些“奇技淫巧”还是算了吧。 作为TRON项目的结果。1987年,日立发布了H8/H16/H32三款CPU,分别是8位/16位/32位。其时日本产品在欧美市场上咄咄逼人,即便作为86和68系CPU的第二供货商,也有喧宾夺主侵夺美国原厂商市场份额的势头。这些引发了日美贸易摩擦,美国政府向日本政府施加压力,小胳膊毕竟没有扭过大腿。TRON计划被大幅度缩小,只限定在实时嵌入式领域。Intel和Motorola分别向NEC和日立提起诉讼,禁止它们再生产销售与86和68系兼容的芯片。这些诉讼最后都在庭外和解了,作为和解的结果,H16由于酷似Motorola的68被放弃了,H32由于TRON项目缩小也被放弃了。H8虽然也大量承袭了68的设计,但总算被保留了下来。 日本历史上有过多次失败,但雄心壮志从来就没有熄灭过。虽然有时必须认命,被外力宫去大半,但雄心不死,还有重生的机会。中国则精神上萎靡了,不用别人动手,就自宫了。即便有人劝说中国能行,但始终坚挺不起来。 日立的H8虽然是8位的CISC设计,随着时代发展,逐步扩展到16位和32位。并在此基础上发展了RISC型的SuperH系列SH1/SH2/SH3/SH4。SH1/SH2定位于实时控制领域,SH3/SH4则定位于信息处理。NEC则发展了自己独自的78和V850系列。 这些CPU都定位于嵌入式领域,避免与美国直接冲突。嵌入式领域市场庞大并被细分,手机、游戏机、汽车、各种家用电器、各种生产装置……,这些领域都是日本的强势领域。这些东西和我们日常生活密切相关,但我们往往觉察不到它们里面计算机的存在。在嵌入式领域对CPU的性能要求并不很高,很难出现赢家通吃的局面。日本CPU的最高主频目前还没有超过1GHz,NEC的V850的一款CPU号称是世界上主频最低的32位RISC CPU,只有20MHz,但却有着极低的功耗。嵌入式领域性能不是主要因素,有自己的特色就可以在市场中找到定位点。 嵌入式应用需要丰富的接口,光CPU远远不够。日本的CPU一大特点是集成了丰富的接口,A/D、D/A、PWM、定时器/技数器、各种通信协议、图象声音的编解码器、Flash、SRAM甚至还集成了大容量的DRAM。包含接口的不同,形成一个完整的系列,根据具体应用的需要选择具体的CPU型号。往往一个单片就可以构造一个完整的应用系统。 软件系统虽然TRON被大幅度缩小,成了uITRON,TRON前面的uI分别代表微型和工业的意思。小有小的好处,正好适应这种资源严重受限的嵌入式应用环境。Windows CE和Linux则庞大笨重,于是uITRON占了日本近一半的市场份额。uITRON只是一个标准,并不是具体实现,具体的软件有好几种,其中也有免费开源的uITRON。当然这些日本CPU也能运行Windows CE和Linux。据说SH3是世界上第一种运行Windows CE的CPU。 软件和硬件系统的结合,使日本的CPU在日本市场上成为主导,外国CPU占的市场份额很小。这与中国不同,中国则是被八国联军占领了。日本的出版教育界也功不可没。有名的CQ出版社出版的电子杂志详细介绍这些本国CPU用法和特点,还免费赠送这些CPU的实验板。还免费提供这些CPU的软核,在FPGA中实现自己的系统,用于研究和教学。学生时代的教育就使用本国的CPU,工作后自然而然就使用本国的CPU。中国的教育原来是Z80,后来是8051,于是学生毕业后就用这些外国CPU。 国家战略、科研、教育、产业相结合,使日本CPU产业从无到有,由弱到强,独树一帜。中国这四个方面相互脱节,国家战略是建立市场经济体制,不惜摧毁自己独立的科研和产业体系。科研面是单打独斗,在整个国家当作点缀存在。教育是面向世界,为留学和外企培养人才。产业则基本被卖掉了,外资企业挑大梁。这样的环境中,发展自己的CPU产业何等艰难。聪明如陈进的,一开始就认为事不可为,打磨芯片交差,科研经费落袋。方舟则是在中途醒悟,还是搞房地产来钱快。就剩下愚公龙芯继续奋斗,但不知道红旗能打多久。
个人分类: 技术力论坛|3000 次阅读|1 个评论
[转载]国产超级计算机年底将全部使用“中国芯”
热度 2 zls111 2011-4-1 21:05
国产超级计算机年底将全部使用“中国芯” 来源:科技日报 作者:操秀英 “按照‘核心电子器件、高端通用芯片和基础软件产品’重大专项的部署,国产超级 计算机今年底将全部使用‘中国芯’。”全国人大代表、龙芯首席设计师胡伟武今天 向科技日报透露。   胡伟武表示,中科院首台完全使用国产芯片的超级计算机将于今年夏天完成装机, 装备“龙芯3号”系列芯片,这种高性能芯片某些指标高于国外芯片。例如一台曙光 千万亿次超级计算机,使用英特尔的CPU可能需要近2万颗芯片,用自主研发的CPU则 不到1万颗。   据介绍,目前国内主要有3家单位研制超级计算机,即中科院支持的曙光系列、 江南计算所的神威系列以及国防科技大学的银河系列。“到今年年底,3家都将全部 安装各自研发的CPU,而过去一直都在使用国外芯片,或者只有一小部分CPU是自主研 发的。”胡伟武说。   超级计算机又称高性能计算机,当前运算速度最快的大容量大型计算机运算能力 相当于17.5万台笔记本电脑。因可以迅速模拟复杂程序,所以能在基因测序、核爆试验、 石油勘探等众多领域大显身手。而CPU是电脑的核心部件,被称为“计算机的心脏”。 长期以来,超级计算机最大的难点就是制造“超高性能CPU”。   “CPU和基础软件事关国家安全和产业发展,过去整个信息产业都是建立在国外 技术平台上,就相当于一个国家的工业完全依赖其他国的钢铁和石油。”胡伟武强调, “因此国家设立‘核高基’重大专项,就是要做自己的‘英特尔’和‘微软’。”   此前,由国防科技大学与天津滨海新区共同研发的“天河一号”超级计算机系统 已经完成二期工程。与一期工程相比,不仅运算速度有了大幅提升,而且采用了2048 颗国防科大在“核高基”支持下自主研发的“飞腾-1000”中央处理器,实现关键部件 国产化。 ==================================================================================== 十二五:我国高性能计算重在提高“软实力” 来源:赛迪网-中国电子报 作者:李佳师 不久前公布的全球高性能计算TOP 500的排名,中国“天河1号”超越了所有对手位居 榜首。应该说,“十一五”期间,中国在高性能计算领域,尤其是系统硬件方面取得 了许多重要突破,但是和国外高性能计算实力相比较,我们的HPC(高性能计算)在 软件应用、核心技术、系统架构的创新上却有相当大的差距,需要在“十二五”期间, 补齐这些短板,让中国高性能计算的“软”实力也“硬”起来。 首先要加大对HPC软件应用发展的投入力度。在国外,高性能计算系统的发展,往往是 因为需要解决某些具体的应用需求难点而在计算层面进行创新,从而带动了系统硬件 不断升级。是先“软”后“硬”,或者“软”“硬”同步。但是我们的HPC发展却轻 “软”重“硬”,其结果是尽管我们的计算速度上去了,但是所跑的HPC软件都是国外的。 很多关键领域、高端领域的HPC应用软件,国外限制对中国出口。所以未来要进一步 推动HPC的普及化,让它能够为中国的产业升级、为大飞机、为航天航空、为气象预报、 灾害预警等释放更多能量与价值,就必须大力发展HPC的应用与软件。 需要改变对高性能计算评估体系。如果想要在“十二五”期间大力发展软件与应用, 就需要修订我们对高性能计算发展的考核与考评的指标,制定不同应用领域的评估指标, 改变重硬件而轻算法的局面。比如在气象领域,需要用清晰度、分辨率等这些倾向于 应用的指标来考核HPC的成果。在每一个重要的HPC应用领域,都制定相应指标体系, 鼓励HPC产学研机构去参与这些领域的竞标,展开HPC的应用竞赛,形成重视HPC软件 与应用的产业氛围,只有这样,我们的HPC应用软件才能发展起来。 需要在核心技术、核心架构上进行创新。尽管中国的HPC拿到了全球HPC TOP 500的好 名次,但是我们所采用的系统架构、所采用的CPU+GPU模式,其核心技术都来自于国外 企业,某种意义上看我们只是在别人已经设计好的蓝图上将之发扬光大罢了。而欧美 等国已经开始布局5年甚至是10年之后的HPC,如果我们依然停留在别人的架构与核心 技术之下,未来,我们的HPC将不仅仅是落后几年的问题而是落后一代的问题。所以, 我们需要在“十二五”期间加大在HPC核心技术、核心架构上的创新,尤其是对特殊 的应用进行针对性设计与优化,将有机会带来中国HPC核心技术的突破。 曙光公司总裁历军 高性能计算需要普及 在“十二五”期间,国内的高性能计算企业应将应用的重点放在引导用户了解高性能 计算,用巧妙的方式引发用户了解高性能计算的优势和自身的需求。 高性能计算的集中化趋势是历史必然。而在云计算等新模式下,高性能计算的发展仍 将注重高性能计算系统的研究与发展。以曙光为例,曙光在研究新技术和新产品的同时, 是带着引导用户使用与满足用户需求的目的的。在未来,高性能计算需要推动普及化应用, 只有应用需求与产业化技术得到有效提升,中国高性能计算的发展才能真正做大做强, 做到科技与民生的实际性结合,中国高性能计算才能走出属于自己的中国化特色。 浪潮高性能服务器产品部总经理刘军 调整评估体系 国家在“十一五”期间对高性能计算系统的巨大投入,使我们在全球HPC TOP500的排名 已经做到了NO.1,在硬件系统上取得了很好成绩,也引起了美国与日本等国的关注。 但从另一方面看,我们的HPC在软件和应用方面的差距很大。所以在“十二五”期间, 中国发展高性能计算要补齐我们在应用软件上的短板,同时要在核心技术与系统架构 上有属于自己的创新。要在这两方面突破,在发展思路上就要应对挑战,在对高性能 计算的成果评估体系上就需要将原来关注速度等指标调整为关注应用,比如说在气象 领域要达到多少分辨率,在算法上取得哪些突破,在应用上扩展到多少核等等。 北京市公共计算重点实验室主任曾宇 应用成为普及关键 高性能计算的普及,应用是关键。这包括两个层面的含义,一是高性能计算平台、应用 软件、相关算法、服务团队应该能满足应用的需求,二是高性能计算平台其服务模式、 服务收费应该能让应用快捷、方便、廉价、透明。国家应该基于区域经济结构的特点, 统一规划。 无论是云计算还是高性能计算,服务的模式和服务的对象是规划其产业发展的关键。 云计算本身针对应用需求的特征提供商品化的计算能力和数据处理服务能力,以公共 云计算平台推动领域计算服务、领域数据处理服务,推动区域社会经济建设和行业发展, 培育区域社会经济发展新的经济增长点,从而推动民族传统产业和新兴产业的自主创新 发展是可行的方案。 清华大学计算机系副主任、教授陈文光 加大HPC推广力度 首先还是要加大推动应用的力度。中国在高性能计算硬件方面的计算速度已经上去, 但是在应用上与国外的差距还是比较大。应用的发展需要国家长期支持。发展HPC应用, 我们需要以科研为契机,打通人才教育生态链,做好人才培养的储备,为中国的产业 升级做好支撑。其次是要加强硬件的核心技术研发。目前虽然我们的HPC计算速度上去了, 但是核心的CPU、GPU还是采用国外的,我们需要研发自己的CPU和GPU,需要在系统结构 上有所创新。需要针对特殊的应用,进行处理器与架构等方面的定制,形成我们在高性能 计算领域的竞争力。 ==================================================================================== 计算大国从这里崛起863计划扶持高性能计算机产业发展纪实 来源:科技日报 作者:申明 2010年11月16日下午,美国新奥尔良市会议中心。第36届全球超级计算机500强 排行榜发布现场,人头攒动。 当代表天河团队领奖的国家超级计算天津中心主任刘光明举起“世界第一”的 证书时,台下不分国籍,掌声、欢呼声连成一片。 这一天,863计划“千万亿次高效能计算机系统研制”课题取得了重大的突破性 成果,中国自主研发的“天河一号”高性能计算机以峰值速度4700万亿次、持续速度 2568万亿次每秒浮点运算的速度,一举夺魁,成为世界运算速度最快的计算机。同时, 由曙光公司研制的“星云”高性能计算机名列第三。至此,全球运算速度最快的前三 台超级计算机中有两台是中国制造的。 当今世界,高性能计算能力是衡量一个国家综合国力和国际竞争力的重要体现, 尤其是随着信息时代的到来,在这场比拼耐力、比拼实力、没有终点的“马拉松” 计算竞赛中,“天河一号”的折桂,标志着中国自主研制高性能计算机能力实现了 跨越,书写了“算盘王国”的新传奇。 今天的成就并非偶然,这是中国高性能计算厚积薄发、常年积累的结果。自1990年, 863计划调整研制目标,从智能机研究转为高性能计算机算起,至今已有21年。 21年来,从最早的跟踪模仿到今天诸多关键技术实现零的突破。中国科技工作者 发扬自主创新精神,研发了一大批具有自主知识产权的核心技术,在系统设计、芯片、 通信、软件等领域走在了世界的前列。 21年来,从最早的“玻璃房子”到今天国产品牌占据半壁江山。中国实现了高性能 计算机产业化发展,构建了产学研用的创新体系,一大批民族品牌在“与狼共舞”的竞 争中杀出重围,打破了国外公司的市场垄断。 21年来,从最早的“曲高和寡”到今天的普及应用。中国高性能计算机在石油勘探、 航天、气候、医药、金融、制造等众多行业发挥了卓越贡献,对我国的经济、社会发展 起到了重要的支撑引领作用。 第一章 用自主创新实现全面突破 国运昌则科技兴,科技兴则国力强。花钱买不来核心技术,只有自主创新才能打破 “玻璃房子”!——题记 “打破玻璃房子” 这是一部不屈不挠,勇攀高峰,可歌可泣的历史。 从1953年1月我国成立第一个电子计算机科研小组到今天,我国计算机科研人员已 走过了50多年艰苦奋斗、开拓进取的历程。其中,“玻璃房子”是科研工作者心中永远 的痛。 上世纪八十年代初,随着改革开放大幕的拉起,我国的天气预报、石油勘探等民用 行业急需一批高性能计算机。由于没有能力制造自己的高性能计算机,国家只能花巨资 从国外进口设备。 “我国进口高性能计算机过去一直受到原巴黎统筹委员会的阻挠和禁运,要么不允 许出口,要么就是只出口已经相当过时的产品,同时还要附加许多关于使用方面的限制。” 中科研计算所所长李国杰回忆说,“即使是机器卖给中国,也要把机器放在一个中国人 不能入内的玻璃屋里接受他们的监控。” 在中国的土地上,却被外国人拒于“技术大门”之外。国外的霸道强权政策,深深 地刺痛了中国科研人员的心:“中国必须要有自己的高性能计算机!”“这口气一定要 挣回来!” 此后,为发展自己的高性能计算机,打破封锁,打破垄断,我国先后启动了若干项 研制高性能计算机的宏伟计划。 1986年,中国的高性能计算机产业迎来了“人生”中的第一次转折。中央正式批准 实施《国家高技术研究发展计划纲要》,由于促成这个计划的建议提出和邓小平批示都 是在1986年3月,人们便习惯地称之为“863计划”。 863计划开启了中国挑战尖端、以创新推动发展的新时代,也鸣响了中国追赶世界 高性能计算行列的发令枪。 “像当年刘邓大军一样杀出重围” 1987年,按照“有限目标,突出重点”的方针,863计划选择了信息技术等7个高 技术领域作为研究发展的重点,并设立了智能计算机系统主题(即306主题)。 “当时,受国际智能计算机研发计划,特别是日本五代机研究计划的影响,提出 要研制智能计算机系统。”863计划“高效能计算机及网格服务环境”重大项目组组长 钱德沛教授说。 1990年,863计划信息技术领域计算机主题组建了国家智能机研究开发中心(以下 简称:智能机中心),并抽调回国不久的李国杰担任中心主任,由他负责组建一支从事 高性能计算机攻关的国家队。 当时,李国杰面对的第一个选择题就是要不要跟日本人走。经过对国内外计算机 发展趋势的反复调研分析,306专家组认为,脱离工业标准与计算机主流技术的所谓 智能计算机不可能有好的前途,于是果断的对智能计算机研制计划进行重新定位, 将研发重点转向并行计算机系统。 “从研制智能计算机向研制高性能并行计算机的转变,对于我国高性能计算领域 的发展具有深远的意义。”钱德沛说。 方向找对了,但现实却很残酷。当时在高性能计算机领域,我国与国外的差距已 逐渐拉开。巨大的技术差距以及国外公司构筑的专利壁垒,犹如一个包围圈让人窒息。 原国家科委主任宋健到智能机中心参观时,号召智能中心当敢死队,像当年刘邓 大军一样杀出重围! 一往无前的勇气,充盈在每一个研发人员的心中。 “我们只有两种选择:要么是妄自菲薄,临渊羡鱼,望洋兴叹,忍受‘玻璃房子’ 的侮辱;要么是奋发图强,退而结网,面对强手勇敢拚搏去争一席之地。”李国杰说。 经过三年的艰苦拼搏,1993年5月,运算速度每秒6.4亿次的“曙光一号”终于诞生。 这项耗资仅200万元人民币的项目,是国内首次以基于超大规模集成电路的通用微处理器 芯片和标准UNIX操作系统设计开发的并行计算机,并且达到了同时期国际同类计算机的 先进水平。 著名科学家、863计划的倡议者王大珩院士在参观了曙光一号后,曾经感慨地说: “高性能计算机的作用,不亚于两弹一星。” “曙光一号并行机的创新实践探索了一条在改革开放条件下研制高性能计算机的 路线。”曙光信息产业有限公司总裁历军认为,曙光一号打破了国内以往“从芯片和 操作系统做起,实现彻底自主研发”的传统模式,由于采取了“有所为,有所不为” 和与国际接轨的技术路线,投入的人力和资金也大大减少。为我国在对外开放新形势 下研制高性能计算机探索了一条新路。 此后,沿着“有所为,有所不为”的技术路线,曙光的阵营越做越大。先后研制出, 曙光1000、曙光2000-I、曙光2000-II和曙光3000,建立了“曙光”这一国产高性能 计算机品牌。 美国听到了中国追赶的脚步声 超前思维,超前部署,是21年来863计划高性能计算机课题的一大特点。 进入新世纪,蓬勃发展的互联网热潮不仅改变了高性能计算机的系统架构,还由 此带来了面向未来分布、并行、共享、协作、移动、个性化等应用特点。对此,863计划 专家组提出了建设国家高性能计算环境(简称计算网格)重大课题。 “这个重大课题的提出改变了过去单纯研制单台超级计算机的思路,这意味着不仅 要研制高性能计算机,还要用所研制的机器建立高性能计算环境,更好地支持高性能计 算的应用。国家高性能计算环境成为后来建立的中国国家网格的雏形。”钱德沛指出。 在863计划的统一部署下,由曙光、天河、联想三种国产高性能计算机的研制单位 承担网格系统软件开发的任务,形成由多种国产超级计算机构成的异构平台,实现了 各个节点的协调工作。 “从‘十五’开始,863计划高性能计算机的研发打破了过去定向委托一家承担的 做法,引入了竞争机制,注意发挥用户的作用。”钱德沛说,“十一五”期间,通过 竞争和用户参与的遴选,曙光公司和联想公司分别赢得了百万亿次高性能计算机的研 发任务。 竞争促进了研发,提高了效率。2003年,联想研制成功了深腾6800,系统峰值速度 达到每秒5.3万亿次浮点运算,该系统在2003年11月世界超级计算机TOP500中排在第14位。 2004年,曙光4000A研制成功,系统峰值速度每秒11.2万亿次浮点运算,在2004年 6月的世界超级计算机TOP500中名列第十。 这标志中国已经成为继美、日之后第三个跨越了10万亿次计算机研发、应用的国家。 此时,长期垄断高性能计算机发展的美国人已经听到了中国人追赶的脚步声。 “这两台机器都超过了863重大专项规定的指标。”钱德沛说,依托国产高性能计算 机所建立的中国国家网格试验床包含了分布在全国各地的8个结点,聚合计算能力达到18 万亿次。在2005年重大专项验收时,中国国家网格的资源能力居世界国家级同类网格的 第二位。 千万亿次机实现整体突破 “梦幻天河弹指间,电闪巡地十亿年。滨海坐拥飞流急,倚天妙算出奇篇。”当得知 “天河一号”成为世界第一后,项目总设计师、国防科技大学副校长杨学军即兴赋诗一首。 “‘天河一号’之所以能在较短时间内研制成功,离不开863计划的支持,这是走 军民融合式自主创新道路带来的高速度与高效益。”国防科大计算机学院政委刘学民说。 “十一五”期间,863计划把高性能计算机的研究推到了新的高度。2006年启动的863计划 重大项目“高效能计算机及网格服务环境”将研制千万亿次高效能计算机列为主要目标之一。 从高性能到高效能,一字之差,体现了研究路线的转变。高效能意味着衡量计算机系统 的能力和水平不仅要看峰值性能,更要看应用所获得的实际性能,要强调应用程序开发的 效率和程序编写的容易程度,要强调现有程序的可移植性。 “从十万亿、百万亿到千万亿的变化不是简单的数量堆叠,而是面临着存储墙、能耗 管理、系统可靠性以及并行计算效率等问题的严峻挑战。必须要稳扎稳打,提前预研。” 钱德沛说。 根据项目安排,高效能计算机的研制分两步走。一期研制百万亿次高效能计算机, 突破千万亿次高效能计算机的关键技术。二期部署了3台千万亿次高效能计算机的研制 课题,分别为“曙光6000”系统、“天河一号”、“神威蓝光”。 至2008年,项目一期完成了百万亿次高效能计算机“曙光5000A”和“联想深腾7000” 的研制,并开展了异构混合体系结构、超并行处理体系结构、高性能互连等千万亿次高效能 计算机关键技术研究,为千万亿次系统的研制成功奠定了基础。 “在863计划的支持下,我们在体系结构技术、异构并行算法、高速互连通信技术、 大规模系统资源管理技术以及综合能耗控制方法等方向开展了广泛的技术探索,共获得 863项目资助20余项。”杨学军告诉记者。 杨学军说,“天河一号”最大的技术特点是,首创了CPU和GPU异构融合计算体系结构, 这为千万亿次超级计算机系统体系结构设计提供了全新思路,“这代表了世界的潮流”。 “天河一号”还采用了我国自主研制的高速互连芯片,芯片性能是目前国际最佳商用 产品的两倍以上,使得CPU之间的通信速度得到大幅提升;中央处理器也首次部分采用我国 自主研制的“飞腾-1000”芯片。“这再次证明,只要我们找准突破口,坚持自主创新,就 能够研制出具有世界领先水平的产品,变‘中国制造’为‘中国创造’。”杨学军信心满 满地表示。 除了“天河一号”外,其他两台千万亿次机也熠熠生辉。“曙光6000”在超并行体系 结构、高密度低功耗技术和通用CPU与GPU混合协同计算方面获得了创新成果,峰值性能每秒 3000万亿次浮点运算,在去年年底的这次TOP500排名中位居第3。 此外,“神威蓝光”千万亿次高效能计算机全面采用自主研制的申威多核处理器实现, 在采用国产处理器实现千万亿次高效能计算机系统方面取得了历史性的突破。 尤其可喜的是,在2010年年底的这次TOP500榜单中,中国在前十中占有两席,仅次于 美国;在前500强中,我国占了41席,总体占有率8.2%,位居第二。而在2009年11月的TOP500 排名中,我国还只有21台,总体占有率4.2%,位列第五。 美国《纽约时报》惊呼:中国正在由一个超级计算机领域的“后起者”向“超级大国”转变。 “这说明,我国的超级计算机研制水平是在以较快的速度发展,中国实现了整体突破。” 杨学军说。 钱德沛告诉记者,“十一五”期间,863计划累计投入9.4亿元,带动投资逾10亿元, 圆满完成了“高效能计算机及网格服务环境”等项目。“我们5年所投入的钱,还不如美国 一个机器的价格,但我们不但造出了3台千万亿次机,更重要的是实现了众多技术突破。” 第二章 产业化是科研成果的最终目标 自主创新必须要有以弱胜强的胆识与魄力,要敢于构建自己的产业链。只有把跨越式 创新也推广为大规模的市场价值,才能获得技术创新的持续动力和良性循环。——题记 用863成果成立了一家“巨头”公司 “发展高科技,实现产业化”是邓小平对863计划的殷切期望。21年来,863计划始终 把高性能计算机的产业化放在首要位置。强调通过自主创新发展高科技产业,在用市场化 机制满足国家战略应用需求上进行了引领性的成功探索。 今天占据国内高性能计算机市场30%份额的曙光公司,正是在863计划的推动和扶持下诞生的。 1995年,当曙光1000研制成功不久,将其进行产业化发展就已提上议事日程。这涉及 到我国高性能计算机是一退到底还是积极拼搏力争占领一席之地的战略行动。 国内外的成功经验证明:没有一个企业实体来推动,光靠科研单位努力,高性能计算机 产业化只是一句空话。 但钱从哪儿来?坐等国家出钱,不是办法。 曙光研发团队将目光投向市场,是否可以靠863计划的科技成果去吸引风险投资?在风险 投资意识尚未蔚然成风的形势下,这样的尝试可谓勇敢。 之后,国内最权威的无形资产评估机构对曙光一号进行十分严格的评估,得出曙光一号 的知识产权为2309.3万元。最终在原国家科委的大力支持下,他们以曙光一号无形资产入股, 吸引到5500万元现金投资,于1995年成立曙光信息产业有限公司。 当原来的科技项目名称变为公司名字后,据曙光公司老员工回忆,当时他们做的第一 件事,就是为自己的产品起一个响亮的名字,而不是以科研上的代号来称呼,“天演、天阔、 天潮”等服务器名称,即由此而来。 产业化,说易行难。曙光公司的成立只意味着争取到了一张参加激烈的高技术市场竞争 的入场券,能否在竞技场上取得好成绩还要付出比过去多十倍的努力。 此后,曙光公司在一步步的摸索中,建立了一套完善的市场运作机制保障、研发体系 保障、科研人才激励机制保障,保证了公司技术创新的持续动力和良性循环。 作为863计划的重要科技产物,如今,曙光公司已经在天津建设了高性能计算机生产 基地,完成了从研发、设计、生产和销售服务的完整产业链布局,并且实现了规模化、 集团化的产业形态。 避免“靓女待嫁”的“产学研用”模式 在历军看来,今天中国市场能够形成国内品牌和国外品牌各占一半的局面,最主要 的原因就是863计划持续21年的投入,不仅研发了一批核心技术,凝聚了一批优秀的技术 和市场人员,最重要的是形成了一个包含技术研发、制造、市场推广、配套政策在内的 完整产业链。 “科研成果不是摆着看的,是要用的。”863计划提出的产学研用的创新模式, 避免了“靓女待嫁”的尴尬。 钱德沛介绍,从“十五”计划开始,863计划对高性能计算机的研制采取了 “产学研用”的模式,研制团队均由企业、大学、研究所和应用单位组成,特别 强调按用户需求确定研究任务。无论是早一些的曙光4000A、曙光5000A、深腾7000, 还是近期的“天河一号”,在立项之初各自就有了“主人”。 这是因为以前863计划曾经研制成功一台高性能计算机,但却没有用户,863计划 专家组花了近一年的时间帮忙找用户,最后一台机器一拆为三,3地的3个用户合力 才把这台机器“消化”了,总算把“靓女”“嫁”了出去。吸取这一教训,从此863 计划的高性能计算机研究坚守“产学研用”的模式,强调以“用”为先。 正是得益于产学研用的研发模式,不但避免了“靓女待嫁”的尴尬,更重要的是 由于用户带着资金来参与项目,说明用户迫切需要这台机器,会对机器的性能指标 提出具体要求,机器投入运行后自然会发挥最大效用,反过来又推动了高性能计算机 的推广,有利于高性能计算产业良好生态环境的形成。 在863计划的高性能计算机项目组里,曙光、联想、浪潮等国内一流的计算机 制造商都是重要成员。实践证明,高性能计算机项目的实施不仅提高了我国在该 领域的技术水平,而且有效促进了国产高性能计算机的产业化。 “21年来,863计划的技术成果直接促进了我国高性能计算机产业的发展,增强 了高性能计算机产品的国际竞争力,迫使国外高性能计算机在国内大幅降价,大大 节省了我国应用部门购买高性能计算机的费用。”钱德沛说。 第三章 造得出还要用得好 人类对于高性能计算机的需求是没有止境的,每一个台阶都需要从基础理论到 实践技术以及应用技术的重大创新和跨越。——题记 饥渴的计算需求 曹孟起总是觉得“不解渴”。 作为东方物探地球物理公司(简称:东方物探)研究院的总工程师,曹孟起 一直头疼于大量勘探数据带来的计算需求压力。 其实,东方物探拥有一个亚洲最大的处理中心,拥有近4万枚CPU核,其计算 能力达到每秒350万亿次,年处理能力三维可达85000平方千米,二维200000千米。 在我国,石油勘探是国内能源行业对高性能计算机需求最大、应用最深的领域。 由于具有数据量大、连接外设多、并行任务多、网络体系复杂等特点,石油勘探 领域成为高性能计算机的用武之地。 “过去是算不起,现在是算不够,我们一直处于饥渴状态。”曹孟起说。 曹孟起想用上更高、更快、更强的高性能计算机的“愿望”很快得到了满足。 2010年11月,东方物探历经一年半研发,具有自主知识产权的地震成像软件 GeoEast-Lightning安装在“天河一号”上,进行数据测试。 在这次计算中,“天河一号”完美的展现了自己“王者实力”。原来在256个 节点规模的机群上需要做将近一个月的逆时偏移项目,在“天河一号”上只需16个小时。 在“天河一号”的帮助下,2010年12月24日,东方物探提前将这套突破了国外 公司封锁,提升了我国找油找气能力的软件推向市场。 目前,GeoEast-Lightning软件系统已投入东方物理公司研究院处理中心,进行 大规模试验生产。试验结果表明,该软件在解决西部复杂构造成像、特殊岩性体成像、 潜山成像及盐下成像方面,效果明显优于其他偏移方法。 “原来我们用机器要隔着‘玻璃房子’,现在几乎全都是国产品牌高性能计算机。 其中,70%都是曙光的。”在东方物探研究院的科研大楼里,有3层楼摆满了机柜, 曹孟起指着其中的一块空地说,“我们马上还要上一批机柜,现在的计算有点跟不上了。” 曹孟起的“不解渴”,反映了一个国家对高性能计算能力的需求和应用水平, 而这种应用水平也是一个国家核心竞争力和科技水平的重要标志之一。 广阔的计算前景 千里之外,李根国与曹孟起一样不解渴。只不过他的身份是上海超级计算中心 副主任,“目前我们的应用已达到资源的70%—80%,这基本上已经是满负荷了。” 2000年12月,上海市政府面向全国建设了上海超级计算中心。由于地方政府 以及超算中心负责人的超前意识,上海超算中心被定义成了“面向公共的计算平台”。 一开始,上海超算中心的用户比较少。“除了用户需求少的因素外,第一批 服役的高性能计算机由于机器兼容的问题,限制了潜在应用领域和用户范围。” 李根国说。 直到2004年,在863计划的支持下,上海超算中心迎来了开放架构的曙光4000A, 曙光系列机器的架构、软件、操作系统都是开放且标准化的,这就意味着系统可以 和国际上一些通用软件更好地兼容。兼容性问题解决之后,上海超算中心的用户得 到了空前的发展。 用户的急剧增长使得机器很快饱和。2009年,在863计划的支持下,上海超算 中心又引进了曙光5000A系列超级计算机,计算规模达230万亿次。 “上海超算中心的两次扩容,每次都是扩容之后很快就排满了应用,很多用户 需要排队很久,这充分说明了高性能计算机应用的广泛性。”历军介绍说。 据李根国介绍,在国产支线飞机的研发项目中,因为有了超算中心,原先可能 需要耗资10多亿元进行的几百次风洞试验,通过计算机模拟仿真,风洞试验可以大 幅度减少;原先上汽集团开发一辆新车,仅进行碰撞试验,就需要消耗80多辆样车, 而现在已减为只需10辆左右。 尤其是在科学计算领域,高性能计算机更能一展所长。中科院上海药物研究所 利用超算中心的资源,得以在240万个药物分子中,筛选出80多个具有药理活性的 分子,作为进一步开发药物的基础,研发时间从2—3年缩短到几个月; 目前,上海超算中心的用户80%以上都是科研机构和大学,而其他20%都用于 工业生产。 上海超算中心已经是国内运营最成功的公共计算平台之一。“每年我们的 机时费能收2000多万元,基本保证了中心的电费等成本开支。”李根国自豪地说。 上海超算中心的满负荷运转让刘光明颇为羡慕,不过他很有信心,“我们的 天河一号强大的计算实力,可以满足气象、石油、医药、建筑等对大计算要求高 的行业需求。” 测试东方物探地震成像软件只能算是“天河一号”“小试牛刀”。“目前‘ 天河一号’已在石油勘探、高端装备制造、生物医药、动漫设计等方面为20多家 用户提供服务。”刘光明说。 在全国织就一张计算网 高性能计算机的成败在很大程度上取决于其应用。因此,863计划在抓紧环境 建设的同时,加强了网格应用的开发。 2006年启动的863计划重大项目“高效能计算机及网格服务环境”提升了中国 国家网格的资源能力和服务水平,将其从试验床升级为网格服务环境,从而更好 地支持应用。 “重大项目支持了生物医药、能源、航空、气象、大型流体机械等方面的 大型并行应用软件的开发,强调以一个程序有效利用数千个处理器核的能力。 已经有多个软件达到了有效使用数千核的水平。”钱德沛说,目前,中科院 超算中心和上海超算中心目前都有三分之一左右的机时是用于千核以上的应用, 这比起5年前的应用状况是很大的进步。 而新一版网格软件CNGrid GOS已经研制成功并完成了部署,它整合了分布 在全国各地11个计算中心的计算资源、存储资源、软件资源和应用资源,资源 能力和服务水平得到了很大提高。到2010年底,总计算能力达到8000万亿次以上, 居世界同类计算环境的领先地位。环境部署了230多个应用软件和工具软件, 支持了700多项国家科技计划项目和重要工程项目的研究工作,在支持我国科学 研究与大型工程建设方面发挥了重要作用。 此外,基于中国国家网格服务环境、以上海超级计算中心为主要依托而构建 的工业设计和仿真优化应用社区也以正式开通。该应用社区在宝钢集团、国家核电、 上汽集团、奇瑞汽车等企业得到了应用,取得了初步应用成效。它帮助企业缩短 产品研发周期,降低研发费用。 “‘十二五’期间,我国863计划将继续坚持自主创新,推进高性能计算机 的研制等工作,大力推进高性能计算机对国民经济、社会的促进作用。”钱德沛 告诉记者。 21年漫漫征程,21年激流勇进。863计划推动和见证了一个计算大国的崛起, 也预示着未来中国高性能计算机必将勇立潮头!
个人分类: 转载和评述|3586 次阅读|3 个评论
超级计算机的CPU的实质是什么?
ssglwu 2010-12-26 09:46
吴国林 五评中国的超级计算机天河 1A CPU 的英文是 Central Processing Unit ,通常称之为中央处理器,或微处理器。一般来说, CPU 是电脑中最重要的核心组件。 CPU 包含运算 / 逻辑单元、控制单元和寄存器这三部分,这些单元都被集成在一块面积不大的硅晶片中。 CPU 的作用和大脑相似,它负责处理、运算计算机内部的所有数据。主板芯片组则更像是心脏,它控制着数据的交换。 一般来说, CPU 的种类和性质决定了你使用的操作系统和相应的软件, CPU 的速度决定了你的计算机有多强大 。 图片来自网络。 一、芯片的发展简史 1971 年 1 月, Intel 公司的霍夫 (Marcian E. Hoff) 研制成功世界上第一枚 4 位微处理器芯片 Intel 4004 ,标志着第一代微处理器问世,微处理器和微机时代从此开始。 Intel 早在 1976 年也推出了一款型号叫 8086 的 CPU 。 Intel 相继推出了 8088 、 80186 和 80188 ,但不是很成功。后来 Intel 将系统部件合并到 CPU 去的概念,产生了重要影响。如 80286/80386 。从 80386 起,人们就把 80 去掉了,直接称之为 x86 了。当 Intel 在推出 486 后, Intel 就将 CPU 型号命名为 Pentium ,从此, PII, P Ⅲ , P4 等不断升级的 CPU 。 二、 CPU 不是一个概念,而是一个具体的实实在在的技术人工物 。 从外表来看, CPU 常常是矩形或正方形的块状物,通过许多的管脚与主板相连。这不过是 CPU 的外衣 CPU 的封装。而 CPU 的内部,是一片大小通常不到 1/4 英寸的薄薄的硅晶片, 约火柴盒那么大 。在这块小小的硅片上,密布着数以百万计的晶体管,相互协调,完成着各种复杂的运算和操作。 比如, 英特尔公司的首席执行官戈登 摩尔将 4004 称之为 人类历史上最具革新性的产品之一 。 1971 年, Intel 公司推出了世界上第一台微处理器 4004 ,它集成了 2250 个晶体管 ,每个晶体管的距离是 10 微米,它能处理 4 比特的数据,运算速度每秒 6 万次,成本不到 100 美元。 Intel 8086 集成 2.9 万只晶体管。 1989 年, 80486 处理器面市。 80486 处理器集成了 120 万个晶体管。 1995 年秋天,英特尔发布了 Pentium Pro 处理器。 Pentium Pro 处理器总共集成了 550 万个晶体管,并且整合了高速二级缓存芯片,性能比 Pentium 更胜一筹。 1997 年英特尔发布了 Pentium II 处理器,它集成了 750 万个晶体管。 而 Intel Pentium 8400EE 处理器包含超过 2.3 亿个晶体管,可以搭配 64 位 WinXP 。而单个 CPU 的核心硅片的大小丝毫没有增大,这就要求有更先进的制造工艺,以便能生产出更精细的电路结构。 早期的 CPU 都使用 0.5 微米工艺制造出来的。随着 CPU 频率的增加,于是出现了 0.35 微米 以及现在普遍使用的 0.09 , 0.065 微米工艺。 如今,最新的处理器采用的是 0.065 微米技术制造,即是常说的 0.065 微米线宽。 这就要求制造工艺的革新。 线宽是指芯片上的最基本功能单元 门电路的宽度。由于门电路之间连线的宽度同门电路的宽度相同,因此,线宽可以描述制造工艺。缩小线宽意味着晶体管可以做得更小、更密集,可以降低芯片功耗,系统更稳定,而且可使用更小的晶圆,并降低成本。当然,并不是可以无限的降低线宽,因为有量子力学的效应的建制,一旦门电路的宽度小到足以必须用量子力学来描述电子的运动时,原来的芯片的经典运动规律就失效了 经典计算机失效了,就必须引入量子计算的概念,引入量子计算机。 从 CPU 处理信息的字长来看, CPU 可以分为:四位微处理器、八位微处理器、十六位微处理器、三十二位微处理器以及六十四位微处理器等等。 三、 CPU 不是一个数学的概念,不是一个纸上设计,而且是一个技术人工物,这就是说, CPU 必须涉及到集成电路的制造,这是一个工程技术问题。 有一 一个学计算机的网友 说: 博主看来很 仰视 CPU 。当代微处理器的设计是一个很难的事吗?答案是否定的!不要说一个集成电路专业的学生,哪怕一个懂一点 Verilog 仿真器的工程师,都可以在一天内通过调用 IP 核(就像软件设计中的标准函数) 设计一个具有相当强功能的 CPU ,而且这是 入门级技术 。而 CPU 设计中广泛使用的超级并行指令,超级流水线,超级调度这些技术,其实很多就是 90 年代以前超级计算机硬件中的成熟技术,只是因为当前集成电路技术发展了,可以 把大的设计 浓缩 在微小的芯片上而已 ,所以并非外行人想像中的那么难。 这方面我们中国并不落后 ,现在的关键在 集成电路制造 ,这些年也在快速追赶中。 即使你在设计出了有关的 CPU ,但是,工程技术能否实现,包括有关的线路制造技术、热量的释放技术等,能否做到相应的线宽要求?事实上,我们国家还没有掌握目前最小线宽的集成电路的制造技术。 中国的天河 -1A 也采用了( NVIDIA )的 Tesla GPU 。 事实上,目前国际超级计算机榜单的第一名(中国天河)、第三名以及第四名均采用英伟达( NVIDIA ) Tesla GPU 。 GPU 是图形处理器,其计算模型在一个异构计算模型中同时使用了 CPU 和 GPU ,应用程序的顺序部分在 CPU 上运行,计算密集型部分在 GPU 上运行。 GPU 已经迅速成为打造全球顶尖超级计算机的关键技术。 每颗 GPU 包含数以百计的并行核心,因而可以大幅提升系统性能。利用 GPU 和 CPU 打造的异构系统需要的占地面积更少、消耗的功耗更低。(图见上) 有关 GPU 见我的博文 超级计算机芯片 CPU+GPU 究竟有多重要? 显然,由 Tesla GPU 提供的优越性能是不能通过互联技术来解决的,中国的超级计算机还必须依赖它。就我个人愿望来说,希望中国不依赖它,而且自己把它搞出来,并超越它。
个人分类: 杂记|7841 次阅读|0 个评论
查看CPU是否支持虚拟化
热度 1 yiligong 2010-8-11 15:16
一、Windows平台: 使用小工具securable。 二、Linux平台: 在终端执行cat /proc/cpuinfo命令,找到flags部分,如果其中输出有VMX或SVM,即表明支持虚拟化技术。 cat /proc/cpuinfo | grep VMX (for Intel CPU) or cat /proc/cpuinfo | grep SVM (for AMD CPU) 三、Linux显示的flags部分解释: fpu Onboard FPU vme Virtual Mode Extensions de Debugging Extensions pse Page Size Extensions tsc Time Stamp Counter msr Model-Specific Registers pae Physical Address Extensions mce Machine Check Architecture cx8 CMPXCHG8 instruction apic Onboard APIC sep SYSENTER/SYSEXIT mtrr Memory Type Range Registers pge Page Global Enable mca Machine Check Architecture cmov CMOV instructions (plus FCMOVcc, FCOMI with FPU) pat Page Attribute Table pse36 36-bit PSEs pn Processor serial number clflush CLFLUSH instruction dts Debug Store acpi ACPI via MSR mmx Multimedia Extensions fxsr FXSAVE/FXRSTOR, CR4.OSFXSR sse SSE sse2 SSE2 ss CPU self snoop ht Hyper-Threading tm Automatic clock control ia64 IA-64 processor pbe Pending Break Enable syscall SYSCALL/SYSRET mp MP Capable nx Execute Disable mmxext AMD MMX extensions fxsr_opt FXSAVE/FXRSTOR optimizations pdpe1gb GB pages rdtscp RDTSCP lm Long Mode (x86-64) 3dnowext AMD 3DNow! extensions 3dnow 3DNow! k8 Opteron, Athlon64 k7 Athlon constant_tsc TSC ticks at a constant rate up smp kernel running on up pebs Precise-Event Based Sampling bts Branch Trace Store nonstop_tsc TSC does not stop in C states pni SSE-3 pclmulqdq PCLMULQDQ instruction dtes64 64-bit Debug Store monitor Monitor/Mwait support ds_cpl CPL Qual. Debug Store vmx Hardware virtualization//intel的虚拟化技术VT技术 smx Safer mode est Enhanced SpeedStep tm2 Thermal Monitor 2 ssse3 Supplemental SSE-3 cid Context ID fma Fused multiply-add cx16 CMPXCHG16B xptr Send Task Priority Messages pdcm Performance Capabilities dca Direct Cache Access sse4_1 SSE-4.1 sse4_2 SSE-4.2 x2apic x2APIC aes AES instructions xsave XSAVE/XRSTOR/XSETBV/XGETBV avx Advanced Vector Extensions hypervisor Running on a hypervisor lahf_lm LAHF/SAHF in long mode cmp_legacy If yes HyperThreading not valid svm Secure virtual machine//AMD的虚拟化技术AMD-V extapic Extended APIC space cr8legacy CR8 in 32-bit mode abm Advanced bit manipulation sse4a SSE-4A ibs Instruction Based Sampling sse5 SSE-5 skinit SKINIT/STGI instructions wdt Watchdog timer
个人分类: 想想写写|13658 次阅读|1 个评论
“龙芯”遭遇拖龙术?
sheep021 2010-6-2 10:58
龙芯中科将收购美国CPU厂商美普思20%股权 曾打算出走天津的龙芯,去年年底被10亿元资金截留在北京后,近日有了新动作。   日前,《每日经济新闻》记者从龙芯内部人士处获悉,龙芯中科将收购美国CPU厂商MIPS(美普思)20%的股权,并派驻一名龙芯代表出任MIPS公司董事。 收购几乎不可能 即使龙芯有钱,MIPS公司也不一定会卖。退一步讲,MIPS有意卖,美国政府对高科技项目收购事项也不会轻易放行。   据他透露,2000年,一位朱姓内地客商通过香港一家公司意欲购买美国一家二流芯片厂商的部分股权,最后关头被美国政府拦下。   据悉,龙芯为此已委托中间人向美国方面探了路,得到的答复是这个想法很无知。    龙芯内部人士说,北京市政府提出的这个要求是不可能实现的,但这个不可能的事却被作为前提条件提出,主要源于背后有英特尔等龙芯跨国对手的介入,他们此举的目的是将龙芯困在北京,拖字为上。   正是基于此,多位接受采访的人士建议龙芯向各包括北京市政府在内的股东方施压,如果他们仍然拿不出真正的诚意,也可壮士断腕,与天津再续前缘。 本博评论: 民族产业未发展,各路诸侯已圈钱 龙芯渐满欲飞天,内外联手造浅滩。
个人分类: 生活点滴|645 次阅读|0 个评论
[转载]我国首套高效能分布式GPU超级计算系统启用
liushli 2010-4-28 17:38
GPU的计算能力优于CPU,发展速度快于CPU。 我国首套高效能分布式GPU超级计算系统启用 时间: 2010-04-27 01:50:19 来源: 太原日报    发表评论 关键词: GPU 分布式 医学影像处理 软硬件协同 超级计算机 内容摘要: 我国首套分布式GPU超级计算系统4月24日在中国科学院建成并正式启用,这标志着我国运用高性能计算解决实际科研与工程问题的能力达到了国际先进水平,在软硬件协同和能效方面进入了国际领先行列。   我国首套分布式GPU超级计算系统4月24日在中国科学院建成并正式启用,这标志着我国运用高性能计算解决实际科研与工程问题的能力达到了国际先进水平,在软硬件协同和能效方面进入了国际领先行列。   据介绍,当今世界高性能计算对科技进步、经济社会发展等的作用与日俱增。但在超级计算机的峰值突飞猛进的同时,其投资大、运行维护成本高、使用效率低等问题也日渐突出。中国科学院在财政部专项资金的支持下,构建了聚合计算能力近六千万亿次的分布式GPU超级计算系统。该系统满足了广大科技人员对超级计算的实际需求,以低廉的成本和现成的网络设施实现高效的超级计算,形成了一条应用导向、效率优先的富有中国特色的超级计算模式。   目前,中科院和高能物理研究所、国家天文台等十家用户单位已经利用相关系统开展了高能物理模拟与实验数据分析、天体物理与空间科学研究、石油物探数据分析与油藏开采过程模拟、工业和医学影像处理等方面的应用。该系统还正服务于国家重大专项、国家科技支撑计划、国家自然科学重大基金和多家大型企业。
个人分类: GPU/CUDA|720 次阅读|0 个评论
Matlab和GPU
zuozw 2009-11-22 19:22
昨天出去玩,发现同学实验室在用 Jacket 实现Matlab程序在GPU上计算。感觉速度和性能比较好。今下午找到Jacket 网站的用 户手册 和 例子 学习了一下,感觉挺有意思的。 Matlab在科研计算的作用是不容置疑的。但当进行大型计算(如从头算法)和没有大型服务器支持时,在个人电脑上运行的时间会特别长,甚至是不可能。 GPU(图形处理器)是显示卡的大脑。与此同时GPU的 高性能计算越来越受到重视。 Jacket Engine 是AccelerEyes开发的专门针对MATLAB基于GPU的计算引擎。 AccelerEyes成立于2007年,致力于将GPU科技引入高性能计算(HPC)当中,需要一个强劲的工具连接软件开发人员和GPU硬件之间。当硬件开发者致力于底层的软件工具(如CUDA),以支持他们的设备时,AccelerEyes 开发了高层的接口,完全屏蔽了底层硬件的复杂性。 如果买不起大型服务器,可以尝试用GPU计算。 学习 Jacket 编程(和M语言一样,只是在函数或循环结构前加个g),发现其中一点挺有用处的:懒惰计算(Lazy Execution),具体计算一开始不执行,直到最后结果需要才执行计算。这一方法可防止有些数值重复计算和防止误差累积。 更多请阅读 1、 Jacket官方网站 2、 GPU让桌面型超级计算机不再是梦想 3、 Tesla-CUDA高性能计算行业应用案例 4、 Tesla高性能计算应用案例-MATLAB、生命科学和医疗成像 5、 GPU加速Matlab高性能计算-Tesla+Jacket Engine解决方案
个人分类: 科研心得|11777 次阅读|2 个评论
CPU vs Clock Time
guodanhuai 2009-10-10 16:13
CPU vs Clock Time CPU time is the time required by the central peocessing unit to process instructions. It does not involve input/output waiting times (for example, when the code is waiting for the user to input some data and the user is taking a break). On the other hand, wall clock time is the time taken to run a code as mesured by a regular clock. This will include all kinds of input/output operations and any processor idle time, also, if you are runnung 10 applications alongside your code, the wall clock time for your code will be obviously larger than if it was run only by itself. CPU time is usually used to benchmark your code, but in reality, it is the wall clock time that really counts because if you start your code in the morning, and finishes by early evening, then that's when it really finished executing, not earlier as would most likely be reported by the CPU time.
个人分类: HPC|7505 次阅读|0 个评论
如何节省分子动力学模拟所消耗的CPU时间
热度 2 jixuanhou 2009-4-12 06:56
关于分子动力学模拟中邻区列表算法的优化理论 侯吉旋 Laboratoire de Physique, UMR 5182 CNRS, Ecole Normale Suprieure de Lyon, 46, Alle dItalie, F-69364 Lyon Cedex 07, France 在过去的半个世纪里,分子动力学方法已经成功地应用到许多科学领域并取得了众多成果。但由于计算机的计算能力有限,大尺度的分子动力学模拟一直是一个难题。对于一个含有 N 个粒子的可加系统,每一步运算都需要计算 N(N-1)/2 个粒子相互作用。然而对于短程相互作用体系,如 Lennard-Jones 系统,每个粒子只与距离小于截断半径 R cut 范围内的粒子相互作用,因此在实际运算过程中只需要计算大约 (4 p R cut 3 r /3)N/2 个粒子相互作用即可, r 为系统的密度。可见大部分计算时间都浪费在对结果没有贡献的粒子间相互作用上。 为此在 1967 年 Verlet 采用了一种邻区列表算法,大大缩短了短程相互作用系统的计算机模拟的计算时间。在这个算法中,引入了一个比截断半径 R cut 稍大的列表半径 R list ,两者之差叫做皮肤半径 D R list -R cut ,见图 1 。在模拟的第一步,每个粒子的半径为 R list 的邻区内的粒子编号都储存在一个列表里,在接下来的运算中,我们只需要考虑该粒子与之相对应的列表中的粒子的相互作用,这样每步的运算量正比于 N 。直到有一个粒子的位移大于皮肤半径的一半,即 D /2 ,则列表需要更新,以免在列表半径以外的粒子进入到相互作用区域内,那么这一步的运算量正比于 N 2 。由于仅在需要更新列表的时候运算量与没有采用邻区列表算法时候的运算量相当,而其他步数都节省了很多运算时间,因此邻区列表算法大大加速了分子动力学模拟。 邻区列表算法示意图 皮肤半径 D 大小的选取直接影响了计算时间的长短。如果 D 太小,则列表需要经常更新,那么就无法节省计算时间。如果 D 太大,以至于列表里面几乎涵盖了整个体系大部分粒子,尽管列表不需要更新,但是每一步的计算量和不使用邻区列表的时候一样,也无法节约时间。因此需要选择一个最优的 D ,使得计算时间最小。 尽管邻区列表算法被广泛应用,但是很少有文章系统地研究过邻区列表算法的优化问题。我们提供了一种选择最优化参数的计算方法。 通过分别使用自由粒子近似和扩散近似对所需模拟的时间进行计算 , 再对两种近似计算进行比较 . 我们研究了更新间隔和皮肤半径 D 的关系。当 D 较小的时候,更新间隔是 D 的一次函数,对应于自由粒子近似;当 D 较大的时候,更新间隔是 D 的二次函数,对应了扩散近似。 更新间隔与皮肤半径的关系 the solid line is given by free particle approximation; the dashed lineis given bydiffusion approximation. 现在来看看我们最关心的计算机所消耗的时间。 下图显示了不同浓度下计算时间和皮肤半径大小的关系。正如所预期的,在皮肤半径 D 小的时候,自由粒子描述与模拟数据符合得很好,而在皮肤半径 D 大的时候扩散描述与模拟数据符合得很好。同时,在密度小的时候,自由粒子描述与大部分数据都很接近,而扩散描述只与小部分数据符合。而当密度升高,自由粒子描述与模拟数据的符合程度逐渐降低,而扩散描述与模拟数据的符合程度逐渐升高。从图中我们可以看到,能让计算时间最小的皮肤半径的值介于自由粒子描述的最优化点和扩散描述的最优化点之间。密度越小,实际模拟的最优化点和自由粒子描述的最优化点越接近。而密度越大,实际模拟的最优化点和扩散描述的最优化点越接近。 The CPU time as a function of the skin radius for different density. 有了我们的理论之后,做分子动力学模拟的你就不需要盲目的尝试了。如果你的系统处在低密度状态,使用自由粒子近似就知道怎么选择参数让计算时间最小。如果你的系统是高密度状态,那么用扩散近似就知道怎么选择参数了。一般情况下,最优的参数选择都会落在这两个近似给出的最优值之间。 References 侯吉旋,司黎明 , Optimization Theory for Neighbor List Algorithmin Fluid System Simulation . 物理化学学报 , 2009, 25 (03): 430-434.
个人分类: 科学视角|12246 次阅读|4 个评论
Intel Inside
eloa 2009-1-24 23:27
猛犸 发表于 2009-01-19 0:18 在Intel四十周岁生日过后四个月,Core i7出现了。这块CPU包含了七亿三千万个晶体管,是Intel生产的第一块CPU晶体管数量的三十二万倍。走到这一步,Intel只花了不到四十年时间。 原名叫做Integrated Electronics Corporation的Intel,在1968年7月18日成立。在过去的四十年中,它一直是信息技术革命的见证者和领跑者。1971年,Intel生产出了第一块用于手持式计算器的微处理器4004,每秒钟能够完成十万次计算。在这块芯片中,晶体管的宽度为10微米,大概比头发的直径略粗一些。这块芯片现在看起来很不起眼,但是却奠定了Intel这座大厦的坚实基础。4004最大的历史意义在于,它是一块通用型的处理器,这让它在当年众多为专用功能而专门设计的处理器中卓尔不群。Intel提出了大胆的设想:使用通用的硬件设计作为基础,用软件来实现不同的功能。在今天看来,这只是一般性的常识;但是在当年,却可以称得上是一个创举。 只有偏执狂才能生存。之后不久,Intel又发布了4040和8008。这两款CPU的市场反应并不强烈,但是Intel下一个产品却获得了不错的成功,同时造就了一个软件业巨头微软公司。 让比尔盖茨退学创业的牵牛星8800计算机使用的就是Intel的8080CPU。这台计算机可以算是现代个人计算机的鼻祖,虽然这台机器和我们现在所理解的计算机无论是在外形还是在功能上都有着不小的差别。比尔盖茨和保罗艾伦敏锐地发现了低价计算机中蕴藏的巨大商机,这种敏锐的观察力帮助他们把微软公司变成了世界上最大的企业之一。 但Intel对8080并不满意。真正让Intel声名大噪的是8086和8088。这两款CPU并不比一个硬币大多少,不过却包含了两万九千个晶体管。它们在20世纪70年代末被制造出来,并且因为蓝色巨人IBM的PC兼容机计划而站稳脚跟。当时安装了这款CPU的计算机直到1981年才上市,计算机终于开始摆上了普通用户的桌面。 硬件和软件开始相互追赶,更快的硬件上运行着更强大的软件,更强大的软件又需要更快的硬件。个人计算机的时代来到了。 新的更快的CPU源源不断地被设计和制造出来。1981年的80286,1985年的386,1989年的486。Intel首次在一块处理器上突破了一百万颗晶体管,计算机的功能也开始日益多元化。 看起来Intel踏着很均匀的步调,每四年发布一款新的CPU。1993年,Intel让计算机爱好者们大大吃惊了一把,发布的CPU居然不叫586,而叫奔腾。奔腾的芯里有了三百多万个晶体管,主频达到100兆赫兹以上。想想看,100兆赫兹!这简直是梦幻装备 奔腾Pro在1995年推出市场。又过了两年,Intel在发布奔腾II,同时顺便把产品线拆成了高中低三阶,赛扬、奔2、至强这些名字不知让多少人在买第一台电脑时伤透脑筋。 2000年,奔4上市,从此开始了长达6年之久的奔4时代。计算机在这6年中逐渐成为人们的必需品,奔4也在这6年中不停尝试,一个又一个的新功能,一项又一项新特性,一种又一种新架构,直教人不知所措。指导Intel发展了数十年的摩尔定律看起来似乎要失效了,65纳米的制程似乎变成了一个极限,一块处理器上似乎不能塞进更多的晶体管了。 既然没有办法在一块处理器上刻进更多的晶体管,那么就尝试让两块处理器一起工作。2005年的奔腾D就是采用这种策略的第一个产品。Intel把两块独立的处理器塞进同一个包装,双核开始成为那一年的流行词汇。奔腾D的终极产品Pentium Extreme Edition达到了惊人的3.73G赫兹的主频这是目前Intel的处理器中能够达到的最高工作频率。 很快,Intel意识到多核处理器是发展方向。2006年上市的Core 2被网友们亲切地称为扣肉2,是从奔3一脉相承下来的产品。通过对半导体材料的改进,45纳米制程也终于实现,晶体管的宽度只有头发丝直径的一千八百分之一,电路之间的绝缘层只有5个原子的厚度。它展现给用户的,是更快的速度,以及随之而来的更多的可能。 今年11月17日,Core i7正式发布。这是目前世界上最快的CPU之一,在263平方毫米的面积里包含了四个计算核心,最高频率3.2G赫兹。它带给我们的,将会是一个前所未有的宽广世界。
个人分类: 其他|1135 次阅读|0 个评论
我对龙芯的建议--(转贴)
sunapple 2007-8-29 20:59
愚蠢小猪   现在龙芯传来的消息让人觉得前景不妙。看了龙芯总设计师胡伟武的记者专访,觉得有些事不吐不快。   整体感觉,胡伟武还是技术者,提出顶天才能立地。我觉得这是一个很大的误区。当年DEC的alpha曾经是一款顶天的CPU,Windows NT曾经有过alpha版,但最后还是无疾而终了,连累DEC破产被人收购了。   CPU领域,其实性能不是主要因素。比如8051,好象是70年代末推出的,以现在的眼光看,无论指令系统性能功耗价格都属于低档次的,但现在还是中国使用最广泛的嵌入式架构。主要原因是大家眼熟,教科书里现在还是它,于是很自然的就用它。但8051在日本则几乎见不到,原因是几乎找不到8051的教材。现在高端领域,ARM比较流行,原因之一也是有广泛的教材书籍。在日本,ARM就不怎么流行,主要原因还是相关的教材书籍少。   龙芯推出来有几年了,但市面上却看不到有龙芯的什么书籍教材,只知道与MIPS兼容,但MIPS的书籍也几乎没有,这大概也是MIPS不能成为主流的原因。可能MIPS原来定位于服务器工作站领域,这些领域的用户不需要了解底层结构。   建议龙芯出版一本书,详细介绍龙芯的结构、特点、使用范例。当然这样类型的计算机书很多,谈不上什么特色。关键的是这本书要附带一个龙芯的实验板和配套光盘,龙芯应用的最小配置,性能要求不高:主频有100MHz就足够了,一个网络接口,配32M的SDRAM(现在也便宜),再配一个SD的读卡器,为了降低成本不支付SD卡的许可,使用SPI模式读写SD卡就足够了。这个最小系统就能够运行Linux了,可以构造一个基本的网络服务器。当然,也可以运行其它操作系统。   为了降低成本,只安装表面贴装元件,其它的大型元件、接插件机5V电源等,由读者自行选配。整本书的定价控制在大约100元,最高最好不要超过200元。这价格我是根据日本的行情,中国的情况可能有所不同。日本的书价折算成RMB大约100-200元,附录实验板的也差不多这个价,实验板算是白送的。当然,日本的实验板能跑起TRON就可以了,配置没有这么高,主频50MHz,内存512K。   龙芯要在江湖上立足,需要出手大方,大胆的送。当然,这种价格出售,会亏本,龙芯的经费有限,席梦丝的钱花多了会肉疼。可以考虑拉些广告赞助,实验板上印一些厂商的名字,书里面插大量的广告,1/3的篇幅是广告问题不大。最好拉一些政府部委的赞助,比如教育部吧,我帮你搞教育,你也得表示点吧。   书发行完后,实验板继续卖,当然就需要原价了。开始阶段,龙芯不要太贪,保本就可以了。还可以继续发行配套的系列丛书,介绍基于此试验板的应用,还可以继续附录配套的扩展实验板,比如图形声音的接口,这个最基本的龙芯就可以逐步成长为一完整的系统。   总之,龙芯要发展,就必须大造声势,要大胆的送和大胆的公开,鼓励大家用,甚至可以考虑公开一些简化版的软核,便于用户在FPGA上实现自己独特的应用。这么做让我们大家也跟着沾光,大家都能爽一爽,才100多RMB就可以得到一个基于Linux的服务器,就相当于下一次馆子了。   但存在的问题是,龙芯以MIPS兼容为号召,这么做有为他人做嫁衣的嫌疑。比如NEC就有基于MIPS的CPU出售。这也是我反对龙芯兼容MIPS的原因之一。   还有一个问题,胡伟武及课题组挂毛主席像,是毛毛虫,我觉得很不妥。其实挂不挂像,挂谁的像是个人问题,他人不好说三道四。但中国却不同,要做成事很多需要跟政治正确联系起来。尤其是现阶段的龙芯,必须要政府支持拿钱,席梦丝和广告商出不了多少钱。当年运十就这么活活饿死了,总设计师马凤山也郁郁而终。运十是谁的孩子,这是要解决的首要问题。前不久看NHK的专题节目《富人和农民工》,据说中国也有下载,里面的大富豪李晓华就挂总设计师的像,往来都是政府高层,于是他就很有钱,可以买1亿日元的车休闲。就是强国论坛上的网友半个诗人,据说是政府官员,同时也是反毛的积极分子。   总之要认清形势,站好队,把事情办成是主要的,虚名就算了。当年米格设计局的总设计师在政治上站错了队,成了叶利钦的对立面。于是米格设计局被穿小鞋,名字也被取消了,现在都一蹶不振。民主自由的时代,是容不下政治不正确的。
个人分类: 技术力论坛|2251 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 00:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部