科学网 › 标签 › 高性能计算

标签: 高性能计算

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

FPL16 经验之谈和FPGA的一些趋势探讨: nusxtra 2016-10-12 13:36; 原文作者： Zeke Wang 博士上个月去参加了FPL 2016. 全名：International Conference on Field-Programmable Logic and Applications (FPL’16) 是 FPGA 领域的四大国际顶级会议之一，常年在欧洲举行，今年选择在美如画的瑞士洛桑举行，其湖光山色为会议增色不少。这次会议有 197 篇投稿，结果有 42 篇全文被接收,大约 21.2%的录用率，较低的录用率保证了论文的质量。这次 FPL 之旅让我受益匪浅，既了解到 FPGA 业内最新的发展方向，又发现我做的 OpenCL 加速方向还是蛮火的。 1, 在服务器领域用 FPGA 加速网络（Configurable Clouds），不只是加速计算（Reconfigurable Computing）。 FPL 的一个 Keynote 来自 Microsoft 的 Doug Burger，Microsoft 是一个真正成功地把 FPGA 用于加速 Microsoft 的服务和 Azure 云，而且得到业内的认可。单块 FPGA 的计算能力只比同代的 Intel CPU 好一点，并没有特别大的性能优势。而且 FPGA 一般被当做加速器 (accelerator) 放在 PCIe 插槽上，由于 PCIe 带宽有限，FPGA 的加速效果就变得不明显了。跟同作为加速器的 GPU 相比，FPGA 的性能在很多情况下都远不如同代的 GPU。当然很多人会说 FPGA 有能耗比优势，但在很多情况下大家还是更关心绝对的性能。当然 FPGA 有 GPU 没有的优势，可以用于加速网络。具体来说，可以用 FPGA 实现特定的网络，用于加速特定的应用。传统的以太网传输带宽有限，而且需要 CPU 一定程度的参与解析 TCP/IP 协议栈，这个开销还是很大的。假如传输都是通过 FPGA 来完成，这可以让 CPU 更专注于计算任务，而不是协议栈。另外一个优势是可以把一部分计算任务（如 selection）移到 FPGA，这样可以减少网络传输量，会很大程度地提高总体的性能。笔者也觉得这个方向非常有前途，准备为这方面出一份力。总结一句：FPGA 从业人员都得感谢微软在其搜索引擎 Bing 上使用 FPGA，这才使得服务器市场开始考虑使用 FPGA，之前都不考虑使用 FPGA 这个方案的。 2，新一代的 CPU-FPGA 异构框架（Intel，IBM） FPL 的两个 Keynote 都是关于 CPU-FPGA 异构框架的而且支持缓存一致性的，一个来自 Intel 的 P. K. Gupta，一个来自 IBM 的 Christoph Hagleitner。 FPGA 访问 CPU 内存的传统方式是通过 PCIe 上的 DMA，所以 FPGA 内存和 CPU 内存没有缓存一致性保证，就需要用户通过手动编程来保证数据的正确性。这样的延迟会很大，而且颗粒度会很大。所以 FPGA 的地位如同二等公民：一切任务都有 CPU 来安排。新一代的 CPU-FPGA 异构支持 FPGA 直接细颗粒度访问 CPU 内存，而且缓存一致性也由硬件保证。在这种架构下，FPGA 跟 CPU 一样都是一等公民：访存的延迟变小和带宽变大。这样增大了 FPGA 的加速效果，使得更多的应用都可以用 FPGA 来加速。总结一句：由于这个平台还比较新，非常有研究价值：对于特定的应用，如何在 CPU 和 FPGA 上分配计算任务，使得整体性能最好。 3, 让 FPGA 编程越来越软件化 FPL 的一个 Keynote 来自 Xilinx 的 Tomas Evensen，主题是关于软件开发人员的 FPGA 进阶之旅。Xilinx 不愧为 FPGA 界的龙头老大，做出的开发工具越来越智能化，让 FPGA 开发越来越软件化，极大地缩短在 FPGA 的开发时间。另外很多论文和 demo 都是关于如何让 FPGA 更具有软件属性，如虚拟化，可中断等等。总结一句：FPGA 还是要先解决工具问题，才能让软件开发者真正喜欢使用 FPGA 加速特定的应用。其中一个软件化的方向是通过高级语言如 OpenCL 来编程 FPGA。不选用传统的 Verilog 编程 FPGA 的原因是通过 Verilog 来编程 FPGA 会需要很长的调试时间，而且需要大量的硬件知识才能较好的使用 FPGA。相比于软件开发，FPGA 开发的门槛较高。FPGA 在本质上是并行的，因此，FPGA 的行计算能力与 OpenCL 的编程模型完全吻合。这次 FPL 有四篇全文都是用 Altera OpenCL SDK 加速不同领域的应用，如图分析，数据库查询，粒子鉴定。其中两篇得到了最佳论文的提名。而数据库查询的这个工作（Relational Query Processing on OpenCL-based FPGAs）来自我们 Xtra 组。这是一个比较初始的工作，后续还有很多增进的空间。我们提供了一个 cost model 来帮忙产生数据库查询的具体执行方案，每个查询有多个数据库运算子组成。由于每个数据库运算子在 FPGA 上有很多的实现方式：每个方式需要不同的 FPGA 资源和不同的性能，所以用户不能在 FPGA 上去试所有的可能性再找其中最好的性能。我们的方式就是用模型来预测每个可能性的性能，这样就可以很快的找出最佳方案。关于OpenCL-based FPGA, 另外我们组还有另一个工作也是帮忙用户优化 OpenCL 代码性能的，A Performance Analysis Framework for Optimizing OpenCL Applications on FPGAs (HPCA’16)。这个工作主要提出了为 OpenCL 代码提出一个性能预测模型，而且提出四个指标用于定位输入 OpenCL 代码的性能瓶颈，这样用户就很容易知道下一步的优化方式，这样很快就可以找到最优的实现方式。这个工作现在只有限支持OpenCL, 我们在用洪荒之力在拓展它的用途。 * 本文仅供学术交流所用，图片文字版权归各自拥有者。 * 本公众号为记录 Xtra 小组的研究经历和进展，若有错误和不妥之处，欢迎联系多多指教。关注我们：; 个人分类: 高性能计算|6406 次阅读|0 个评论

未来的内存系统的机遇和挑战: nusxtra 2016-8-22 18:53; 未来几周，我们将会探讨一下未来计算机架构的未来发展趋势。上一期，我们探讨了处理器。这一期，让我们来探讨一下内存存储方面的发展趋势。主要参考文献包括： Onur Mutlu and Lavanya Subramanian, ResearchProblems and Opportunities in Memory Systems InvitedArticle in SupercomputingFrontiers and Innovations (SUPERFRI) , 2015. https://users.ece.cmu.edu/~omutlu/pub/memory-systems-research_superfri14.pdf 这篇文章的作者 Onur Mutlu ，是大名鼎鼎的 Onur ，做内存计算的大概都知道这位大哥，最近从 CMU 挪窝到 ETHZ 。下面我们来一起看看这篇文章。文章里面讲了囊括了很多技术性的解法，但是我们主要想通过数据来说话，来看看内存系统的发展方向。内存架构发展的趋势 : Onur 从三个方面来探讨未来发展的趋势： systems/architecture front, applications front,technology front. - Architecture: 这里强调了 heterogeneous processing cores 对内存系统的 QoS 的需求 - Application: 随着更多的应用在内存里面常驻，产生对内存系统的不同要求。例如，图应用需要的更多的是 latency, 而 OLAP 数据库更多的是带宽。 - Technology: nvram 是主角，还有就是千呼万唤的 Intel Xpoint. 在 Onur 看来，下面这些 Technical challenges 是主要的挑战。个人认为现在单单看内存本身已经比较局限，更多的需要和系统和应用相结合， Onur 提出的三个 challenges 里面，解决方案不少都是跟上层结合的。大家感兴趣可以看这个文章，洋洋洒洒 30 多页啊啊。 1) Overcome scaling challenges with DRAM, 2) Enable the use of emerging memory technologies, 3) Design memory systems that provide predictable performanceand quality of service to applications and users 由于时间关系，下面我就根据这个文章，结合我的理解，来分别讲讲这三个挑战为啥是个问题，他们的影响是什么。各种具体解决方案可以看文章。 Overcome scaling challenges with DRAM They have identiﬁed three major challenges as impediments to eﬀectivescaling of DRAM to smaller technology nodes: 1) the growing cost ofrefreshes,2) increase in write latency, and 3) variation in the retention timeof a cell over time DRAM Capacity Latency Over Time. 关于前两点，大家看下图就明白了。 Scaling 带来的另外一个问题是可靠性。在这篇论文里面， FlippingBits in Memory Without Accessing Them: An Experimental Study of DRAMDisturbance Errors, (Kim et al., ISCA 2014) 讲了不少关于内存可靠性的内容，大家感兴趣可以看看。最后一个因素就是功耗。有一些研究工作指出，内存功耗可以占整个机器的40-50%。这个比例当然是每个机器不一样的，但是如果未来机器具有很大的内存，目前已经有单机TB级别的，内存功耗就不容小觑了。另外一个坏消息是，DRAM consumes power even when not used (periodic refresh)，这个就是之前的那个关于refresh的图了。 Emerging memory technologies 主要是看新的内存硬件技术 (e.g.,NVRAM) 如何改变 DRAM 整个生态圈。以前大家都期盼 NVRAM 替代 DRAM ，但是貌似最近大家更接受 DRAM+NVRAM 混合。至于怎么混合，貌似还没有定论，一个原因可能是因为大部分的 NVRAM 都还是在实验室里面。唯一一个已经公布的 Intel Xpoint ，大家也是等啊等啊。不管怎么样，这是一个大家都在盯着的领域，不仅仅是计算机架构的，还有各种应用和系统的，包括数据库，操作系统等等领域。 Onur 写道 “We believe emerging technologiesenable at least three major system-level opportunities that canimprove overall system eﬃciency: 1) hybrid main memory systems, 2)non-volatilemain memory, 3) merging of memory and storage.” 其实，这里强调的是 system-level ，下面两个图分别是讲： 1) 平行架构 , 2) NVM 作为外部存储部件。不管是哪个，对上层应用和系统都是很大的挑战。一方面，我们有如此多的 legacy code base, 如何让这些 legacy code 能够利用到新的硬件特性，可喜的是 Linux 内核开发社区已经注意到这个问题，并计划对新型的 NVM 进行支持。此外，一些研究团队提出支持 NVM 的文件系统如 BPFS 、 PMFS 、 SCMFS 等，在内核层面支持 NVM 对应用程序的透明性，但增加了用户空间与内核空间数据拷贝的开销。另外一方面，新的应用如何把 NVRAM 用到极致，从性能和能耗等方面目前都还有探索的空间。我们需要从系统的层面来平衡这个事情。 Predictable memory performance 内存计算已经在很多领域有着广泛的应用。随着应用的增多和多核的普及，内存系统如何提供可预测的性能变成一个大问题。他们的实验里面看到最高有 5 倍的 slowdown （下图） . 因此， Onur 写道 ” Towards this end,previous works have explored two diﬀerent solution directions: 1) to mitigateinterference,thereby reducing application slowdowns and improving overallsystem performance, 2) to precisely quantify and control the impact ofinterference on application slowdowns, thereby providing performance guaranteesto applications that need such guarantees.” 其他相关工作：相关的工作其实有很多，这里我就讲讲几个最近我看过的，觉得很有意思的: 中科院计算所的 YungangBao 提出了 PARD ， The Computer as a Network (CaaN). 这个项目非常有意思的结合软件定义网络来提供 QoS, 可以说是解决 Onur 提到的第三个挑战 . 据说，他们这一套软硬件方案已经用到某公司的实际部署。华中科技大学的 Xuanhua Shi 组最近做了一个关于内存计算的生命周期管理器。这个工作虽然跟内存架构不相关，但是体现了一个问题：软件管理是很有必要的，最近不少基于 java 的内存计算系统 (e.g.,Spark) 都在争取把内存管起来。当然随着内存系统架构的发展，内存管理变得更加复杂，也变得更加的有挑战性。 3D 堆叠和 HighBandwidth Memory ( HBM ) 应该也是一个亮点。 AMDand NVIDIA GPU 都会在下一代产品里面支持， Intel KNL 里面也有。如何使用这块高带宽而且容量还不小的内存 (=16GB) 是个幸福的烦恼，哈哈。最近在 ISCA 2016 上面， FredChong and Yuan Xie 他们合作提出了 Mellow Writes: Extending Lifetimein Resistive Memories through Selective Slow Write Backs 来延长 resistivememory 的生命并且控制在很小的性能损失。这个想法是基于一下两个观察 : 第一， Fortypical Resistive Memory technologies, slower writes are predicted to have aquadratic endurance advantage! 第二， Memorybanks are idle for most of the time. 见下图// 我认为这里的实验可以做的更好，如果考虑多核多应用。有了这两个观察，我想大家也就不难想出下一部的解决方案了，就是找出那些可以慢慢的写，但是对性能又不会有很大影响的写操作。具体可以看看看看他们的论文。我们自己小组跟香港浸会大学做了一个工作如何使用 NVRAM 来进行 “Real-TimeIn-Memory Checkpointing for Future Hybrid Memory Systems” . 我们跟上面这个 ISCA 的论文有类似之处，就是充分利用 idle period 来做些有用的事情，但是同时尽可能小的影响应用性能。最后，我们小组在这个方向上也是做了不少的工作，从闪存开始，我们是第一个团队做出高性能的 B+tree index (FB-Tree) , 后来陆陆续续做了一些 buffermanagement 的工作 (FD-buffer ) ，还有就是和 JianliangXu@HKBU 合作在 NVRAM 上面如何提高事务处理的性能。最近，我们针对 NVRAM 的一致性问题提出了 NV-tree . 最最后，我们的期待啊，您什么时候出来啊？ Jiuyue Ma,Xiufeng Sui, Ninghui Sun, Yupeng Li, Zhihao Yu, Bowen Huang, Tiani Xu, ZhichengYao, Yun Chen, Haibin Wang, Lixing Zhang, YungangBao, Supporting DifferentiatedServices in Computers via Programmable Architecture for Resourcing-on-Demand(PARD) , in the 20th International Conference on Architectural Support forProgramming Languages and Operating Systems (ASPLOS), 2015. Lu Lu,Xuanhua Shi, Yongluan Zhou, Xiong Zhang, Hai Jin, Cheng Pei, Ligang He,YuanzhenGeng, Lifetime-Based Memory Management for Distributed DataProcessing Systems. Proceedings of the VLDB Endowment (PVLDB), New Delhi,India, Sept. 5-9, 2016. LunkaiZhang, Brian Neely, Diana Franklin, Dmitri Strukov, Yuan Xie, Frederic T.Chong. Mellow Writes: Extending Lifetime in Resistive Memories throughSelective Slow Write Backs, In the proceedings of the 43rd Annual Intl.Symposium on Computer Architecture (ISCA) , June 2016. Seoul, Korea. Shen Gao*,Bingsheng He, Jianliang Xu. Real-Time In-Memory Checkpointing for Future HybridMemory Systems. ACM ICS 2015: 2015 International Conference on Supercomputing. http://www.comp.nus.edu.sg/~hebs/pub/DRAMCheckpoint-ICS15.pdf Yinan Li,Bingsheng He, Robin Jun Yang, Qiong Luo and Ke Yi. Tree Indexing on Solid StateDrives. Proceedings of the VLDB Endowment, Volume 3 Issue 1-2, September 2010, pp.1195--1206. Sai TungOn*, Shen Gao, Bingsheng He, Ming Wu, Qiong Luo, Jianliang Xu. FD-Buffer: ACost-Based Adaptive Buffer Replacement Algorithm for Flash Memory Devices. IEEETC 2014: IEEE Transactions on Computers, vol.63, no.9, pp.2288--2301, Sept.2014. Sai TungOn, Jianliang Xu, Byron Choi, Haibo Hu, Bingsheng He. Flag Commit: SupportingEfficient Transaction Recovery on Flash-based DBMSs. TKDE 2012: IEEETransactions on Knowledge and Data Engineering, Volume: 24, Issue: 9, Page(s):1624-1639. Jun Yang,Qingsong Wei, Cheng Chen, Chundong Wang, and Khai Leong Yong, Bingsheng He.NV-Tree: Reducing Consistency Cost for NVM-based Single Level Systems. FAST'15:13th USENIX Conference on File and Storage Technologies. Author byBingsheng He (commented by Haikun Liu) * 本文仅供学术交流所用，图片文字版权归各自拥有者。关注我们：; 个人分类: 高性能计算|6466 次阅读|0 个评论

基于GPU的大规模图计算系统与应用: nusxtra 2016-8-17 10:58; 作者介绍：钟健龙博士，2013年毕业于Xtra, 现供职于GraphSQL Inc，主要研究兴趣为GPU计算、高性能数据处理与分析。本文主要用于学术交流，所发言论不代表所供职的单位。大规模图数据（graph data）的计算与存储是当下工业界和学术界都非常热门的话题。就在一周前，美国苹果公司两亿美元低调收购了成立只有三年之久的机器学习公司Turi，布局人工智能和机器学习领域。而Turi的起源正是图计算领域大名鼎鼎的GraphLab【1】项目。从Turi官网可以看到Turi的产品主要运用在推荐系统、顾客精确细分、反欺诈等领域。这些领域面临的数据往往缺乏结构（unstructured data）而且内部关系紧密而复杂，传统的关系数据库面对这种类型的数据非常吃力，尤其是当今数据规模越来越巨大。本文的主角，像GraphLab、Pregel【2】这类把数据存成图结构的并行图计算框架（Parallel Graph Processing Framework），却能为这种数据的提供实时或者准实时的处理性能。 Xtra小组从2010年开始进行并行图计算框架的研究，我们选择的突破方向是引入计算性能比传统CPU强悍千百倍的GPU（Graphics Processing Unit）。2013年我们发布了世界上首个完全基于GPU的并行图数据处理框架Medusa【3】, 并且开源于https://github.com/JianlongZhong/Medusa, “Medusa: Building GPU-based Parallel Sparse Graph Applications with Sequential C/C++ Code”. Medusa解决了两个核心问题：1. 如何让不懂GPU编程的人可以用上GPU的强悍性能处理图数据；2. 如何让图计算问题尽可能高效地运行在GPU上。尽管CUDA/OpenCL这类编程环境已经让GPU编程开始“平民化”，但是由于GPU架构的复杂性（成千上万的核心和复杂的内存系统），高效地运用GPU往往需要比较长的学习周期（这也是为什么很多人刚开始用GPU写出来的程序甚至还不如单线程的CPU程序快）。Medusa提供了六个简洁的API，用来操作图数据的顶点和边以及数据交换。这些API都是跟CPU编程无异的串行C/C++程序。Medusa内部自动地将这些串行的程序转换成并行的GPU程序，当然这些转换都是对用户透明的；用户只需要会写C程序，就能使用Medusa。图计算的另一个挑战是其天生的“不规则性”。首先，图数据自身非常不规则，每个顶点可能带有不同的数据，不同数量的边和邻居顶点，等等。对GPU体系结构有了解的童鞋应该都知道，GPU“喜欢”的是规则的运算（矩阵计算，图像图形计算等）。要让不规则的图计算跑在GPU上并且保证GPU能被充分利用是一件非常困难的事情。Medusa从体系结构和编程模型上提出了一些列的创新来保证图计算在GPU上的高效运行。使用Medusa写出的图计算程序，不经优化一般可以比单核CPU要快一到两个数量级。从Medusa的第一版原型出来已经过去三年多，现在看来，Medusa的最大贡献也许不是我们提出的各种优化技巧和编程模型创新，而是证明了引入GPU来解决图问题的可行性。我们也看到很多出色的后续工作在开展。其他相关工作：Medusa使用了BSP（Bulk-Synchronous-Parallel），很多机器学习的应用使用异步的迭代计算模型往往能更快达到收敛。在Medusa以后，有不少系统对GPU上的图计算进行进一步的提高和改进。在Xtra小组参与合作的华中科技大学的Frog项目（http://grid.hust.edu.cn/xhshi/projects/frog.html）巧妙的运用了graph coloring来实现GPU上的异步图计算：（图片来自于http://grid.hust.edu.cn/xhshi/projects/frog.html）来自加州大学戴维斯分校的Gunrock项目（http://gunrock.github.io/gunrock/doc/latest/index.html）同样是一个完全运行在GPU上的并行图计算框架。Gunrock基本延续了Medusa的思路，在编程模型和算法实现上做了更深的优化，在某些应用上取得了数倍好于Medusa的性能。（图片来自于blazegraph.com）基于GPU的图数据处理解决方案已经成功商业化：美国新创公司BlazeGraph（www.blazegraph.com）的基于GPU加速的图数据库（声称比CPU内存图数据库快100倍）的很多技术都可以在他们的论文（MapGraph: A High Level API for Fast Development of High Performance Graph Analytics on GPUs, GRADES'14）中看到。MapGraph也参考了Medusa的实现，我们的成果也是间接服务了工业界啊:-) （图片来自于blazegraph.com）图计算的挑战和机遇：我们认为基于GPU的图计算系统还有很多没有解决的具有挑战性的研究问题，主要是来自于图的新应用和GPU新特征。a) 如何有效的处理动态图结构，b) 如何利用新的架构特点例如Pascal GPU的HBM, mixed precision compute, NV-Link. HBM将会有512GB/S of memory bandwidth。【1】 https://en.wikipedia.org/wiki/GraphLab 【2】Pregel: a system for large-scale graph processing, Grzegorz Malewicz, et al, SIGMOD '10 【3】 Jianlong Zhong* and Bingsheng He. Medusa: Simpliﬁed Graph Processing on GPUs. IEEE TPDS: IEEE Transactions on Parallel and Distributed System, vol.25, no.6, pp.1543-1552, June 2014, doi: 10.1109/TPDS.2013.111. Author: Jianlong Zhong (edited by Bingsheng He); 个人分类: 高性能计算|2492 次阅读|0 个评论

E级超算华山论剑，中国能否站上超算之巅: 热度 4 bonjourgl 2016-7-17 18:10; 在微信上阅读此文章，请戳： E级超算华山论剑，中国能否站上超算之巅寒冬岁尽，华山绝顶，大雪封山。「东邪」黄药师、「西毒」欧阳锋、「南帝」段智兴、「北丐」洪七公、「中神通」王重阳五大顶尖高手在华山顶上“ 口中谈论，手上比武 ”，斗了七天七夜，最终王重阳击败四人获胜，夺得《九阴真经》。这便是江湖人口口相传的华山论剑。如今，国际超算界也正在上演一段华山论剑故事。自 “ 新科”全球最快超级计算机“神威·太湖之光”亮相之后，国际超算界开始将目光聚集在超算的下一个里程碑——E级超级计算机。比“太湖之光”峰值还要高一个数量级的E级超算，是超算界公认的 “下一顶皇冠”。 01 各国的“ E级计划 ” 作为一个国家综合国力和科技创新能力的重要标志，E级高性能计算机已成为当前各国竞相角逐的战略制高点。美国、欧洲、日本等国都提出了自己的E级超算研发计划，中国也将百亿亿次超级计算机（技术）的研究写入了国家“十三五”规划中。美国：自“天河二号”于2013年11月正式登顶当时的超算TOP500榜首之后，美国这个头号超算强国已连续3年未曾染指这一宝座。然而，种种迹象表明，美国从未在“最快超算梯队”上掉队。在给笔者的邮件回复中，全球超算TOP500排行榜发起人、橡树岭国家实验室及田纳西大学教授Jack Dongarra 透露，美国能源部（ DOE）通过国家战略计算计划（NSCI）以及与产业界和学术界的合作，正在推行能进行百亿亿次计算系统的开发。“该系统集成了硬件和软件能力，在一系列代表政府需求的应用中的表现将是目前10千万亿次系统的100倍。” 欧洲、日本：欧洲、日本也制定了自己的E级超算研发计划，并将相应计划的完成时间表设定在了2020年。被誉为“HPC网红 ”的中科院计算所研究员、中国计算机学会高性能计算专委会秘书长张云泉告诉笔者，欧盟希望在2020年左右实现E级超算，可能将由Bull公司实现这个计划；日本也是在预计2020年实现E级超算计划，可能将由日立或富士通来实现这个计划。中国：E级超算是“十三五”规划中的重头戏之一，那么实现的时间表也应该是“十三五”收官（2020年）的时间左右。值得一提的是，在最新公布的国家“十三五”高性能计算专项课题中可以看到，我国公示出了3个分别由中科曙光、国防科技大学以及江南计算技术研究所牵头的E级超算的原型系统研制项目，出现了“三足鼎立”的中国超算在E级超算研发上“三头并进”的局面（后文将对此进行解读）。出人意料地，在几个制定了相关计划的国家中，只有美国相对“悲观”，他们预计百亿亿次超级计算机的建成要等到2022年。据分析，美国此举或许并非故弄玄虚，因为随着高性能计算机运算规模的增加，建造它的难度将是几何倍数的提升。 02 不轻松的“ E级挑战 ” 百亿亿次超级计算机的建造难度并不仅仅在于速度的提升上，更在于对大规模超算设备的功耗要求。张云泉告诉笔者，按照国际公认标准，E级超算的功耗应低于20MW。按照这一功耗目标要求，未来的E级超级计算机的能效比要达到50 GFlops/W 。这是一堵难以逾越的高墙。毕竟排在Green500第三位、创造了大规模高性能计算机效能比的最好成绩的 “太湖之光”每瓦性能只有6 GFlops ，相差一个数量级。 “功耗墙很难逾越，是各国都在面临的难题。” 张云泉说：“现在大家希望采用异构加速或异构综合的方来降低功耗的要求，但由此带来的是编程的困难。因此，可以说研发E级超算实际上面临着编程墙、功耗墙、可靠性墙和存储墙几个‘大墙’的围堵，如何越过这几堵墙，面临很大的挑战。” Jack Dongarra 对建造E级超算的难度也有充分的估计，他告诉笔者，在准备为超算设备升级之时，软件和应用方面的准备工作要做在前面，以确保E级超算这种“新物种”能够第一时间给科学和产业界带来益处。关于建造超算面临的挑战，他给笔者列出一个 “没有特定顺序”的 “TOP10挑战名单”。现附下，请超算科学家们共商： 1. Creating more energy-efficient circuit,power, and cooling technologies. 2. Increasing the performance and energyefficiency of data movement. 3. Integrating advanced memory technologiesto improve both capacity and bandwidth. 4. Developing scalable system software thatis power- and resilience aware. 5. Inventing new programming environmentsthat express massive parallelism, data locality, and resilience 6. Creating data management software thatcan handle the volume, velocity and diversity of data that is anticipated. 7. Reformulating science problems andredesigning, or reinventing, their solution algorithms for exascale systems. 8.Facilitating mathematical optimizationand uncertainty quantification for exascale discovery, design, and decisionmaking. 9. Ensuring correct scientific computationin face of faults, reproducibility, and algorithm verification challenges. 10. Increasing the productivity ofcomputational scientists with new software engineering tools and environments. 03 激动人心的“ E级应用 ” 人们不遗余力地向E级超算发起挑战，正是对其潜在的巨大作用有着热切的预期。对此， Jack Dongarra 的描述激动人心： “每秒执行百亿亿次计算，这可是我们今天所见机器计算速度的数十上百倍，这些未来的计算机将是一个全新的‘物种’。它们的惊人之处不仅在于更快，更在于可以以全新的方式处理大数据。所以E级超算未来将非常有用，比如攻克癌症。” “为了找到治疗癌症的方法，我们需要找出以前没有见过的模式。在癌症治疗方面，人们面临的挑战不是缺乏相关数据，而是如何“正确打开”这些数据，并找到合理的模式处理它，从而告诉人们到底是什么原因导致癌症或者如何更有效地对抗它。超级计算机是用于分析基因组和相关分子数据集、患者记录、家族史和与癌症相关的其他复杂信息的优良工具。随着超级计算机的发展，我相信我们可以找到答案。” 当然，E级超算能派上用场的还不止这些，用到它的地方五花八门：模拟人的心脏，调查各种药物对心脏的影响；分析海洋，了解海洋以弄清如何应对气候变化；创建新材料，探索如何消除新材料的摩擦力；维护世界安全，建模核爆炸以免除实际测试的需要；模拟宇宙，以3D仿真的手法探索我们浩瀚的宇宙 …… 张云泉也表示E级超算在上述领域的巨大应用潜力，但他同时指出，摸清E级超算未来应用是当务之急，这与建设E级超算同等重要。 “我们需要马上补足对E级应用需求的分析，对E级应用软件的支持和支撑，以及相关生态系统，特别是软件生态系统的建立，特别是要论证清楚我们国家为什么要发展E级超级计算机， E级超级计算机在我们国家有什么用处，这样的问题一定要回答清楚，这样我们E级超算的发展才有用处。” 04 中国能否登顶“ 超算之巅 ” 看到了发展E级超算面临的种种挑战，了解了E级超算潜在的种种应用，特别是考虑到“十三五”对E级超算的目标规划，问题来了：中国能否在E级计算时代登顶“超算之巅”？前文提及，我国E级超算研发出现了“三头并进”的局面。中科曙光、国防科技大学以及江南计算技术研究所各自牵头了国家“十三五”高性能计算专项课题的 E级超算的原型系统研制项目。这三家单位在超算领域的技术实力已经毋庸赘言，我国出现在全球超算TOP500榜单前十的超算设备均出自这三家之手，形成了中国超算“ 三足鼎立 ”的局面。值得注意的是，这三家单位目前拿到的是“ E级超算的原型系统研制项目 ”，也就是说，是在E级超算项目正式进入日程之前的预研工作。古人云：预则立，不预则废。原型系统的研制正是出于此意。 “原型系统可以验证一些关键的技术设想，对一些关键技术难点进行测试和改进，为最后建造全部的系统扫清障碍，避免出现大的技术错误和难题。”张云泉说，尽管原型系统不可能暴露所有的问题，但类似的预研项目非常必要。据消息人士透露，中科曙光牵头的E即超算原型系统研制项目将于近期举行的曙光技术创新大会（IDIC2016）上正式启动。我国在E级超算研制方面采取的是竞争体制，预计两年之后会对3家单位进行评估，最后采取最好的方案来整合成最后国家的E级超算研发体系。到那时， “三家单位将有可能会产生交集或者合作 ”。后语在“太湖之光”以自主芯片和操作系统将HPC的计算速度刷新十亿亿次之后，中国看到了自主研发E级超算的曙光。张云泉认为，“太湖之光”的成功已经为我国向E级超算迈进打下了一个坚实的基础，只要做好人才、资源、经费和材料的储备，冲击E级超算指日可待。; 个人分类: 科技杂谈|6372 次阅读|6 个评论

NSR专题｜高性能计算: sciencepress 2016-5-11 17:16; 国家科学评论微信号 NatlSciRev 功能介绍《国家科学评论》（National Science Review，NSR）由中国科学院主管、科学出版社主办，致力于全方位、多角度报道中外自然科学各领域的重要成就。高性能计算在解决大规模复杂问题方面具有战略地位，并显著地促进了社会经济的发展，在过去40多年里一直是很活跃的研究领域。高性能计算是一个高度学科交叉的领域，它的成功与否与超级计算机、并行算法、并行编程、基于网络的高性能计算环境以及高性能计算应用密切相关。高性能计算应用对超级计算机的需求促进了计算机体系结构和核心技术的发展，如最近兴起的异构加速体系结构已被TOP50中众多超级计算机使用；在基于网络的高性能计算基础设施方面，美国开发的XSEDE和OSG是网络基础设施的典型代表；中国的高技术计划大力支持这个方向的研发，促进了中国的国家高性能计算环境—中国国家网格服务环境的诞生。高性能计算应用领域十分广泛，如油气勘探、环境保护、材料设计、产品设计优化、全球气候变化以及药物研发、大数据分析和图像语音识别等，这些应用也是促进其发展的重要动力。为了介绍高性能计算领域的最新动态，由钱德沛教授担任客座编辑组织，《国家科学评论》杂志2016年第1期出版了关于高性能计算的前沿进展专题。在该专题中，唐志敏研究员在亮点文章中以天河2号为例讨论了超级计算机互连的问题。 Josep Torrellas 教授撰写了关于极限规模计算机体系结构的论文；谢向辉研究员点评了高性能计算机低能耗技术的趋势与展望；孙家昶教授和杨超研究员总结了大规模并行算法研究；莫则尧研究员撰写了高性能计算的编程框架； Jack Dongarra 教授介绍了衡量超级计算机的评测新标准HPCG；徐志伟、迟学斌、肖侬研究员综述了中国20年来的高性能计算环境的发展；蒋华良研究员和于坤千研究员介绍了高性能计算在药物研发和分子模拟中的应用。陈左宁院士在访谈中介绍了开发百亿亿级计算系统的挑战与可能的解决方案，访谈由陈文光教授撰写。专题文章链接如下，敬请关注： GUEST EDITORIAL Depei Qian High performance computing:a brief review and prospects http://nsr.oxfordjournals.org/content/3/1/16.full RESEARCHHIGHLIGHT Zhimin Tang TH Express-2 reaches new heights for super computer interconnects http://nsr.oxfordjournals.org/content/3/1/17.full PERSPECTIVES Josep Torrellas Extreme-scale computer architecture http://nsr.oxfordjournals.org/content/3/1/19.full Xianghui Xie Low-power technologies in high-performance computer: trends and perspectives http://nsr.oxfordjournals.org/content/3/1/23.full Jiachang Sun, Chao Yang, and Xiao-Chuan Cai Algorithm development for extreme-scale computing http://nsr.oxfordjournals.org/content/3/1/26.full Zeyao Mo High-performance programming frameworks for numerical simulation http://nsr.oxfordjournals.org/content/3/1/28.full Jack Dongarra, Michael A. Heroux, and Piotr Luszczek A new metric for ranking high-performance computing systems http://nsr.oxfordjournals.org/content/3/1/30.full REVIEWS Zhiwei Xu, Xuebin Chi, and Nong Xiao High-performance computing environment: a review of twenty years of experiments in China http://nsr.oxfordjournals.org/content/3/1/36.full Tingting Liu, Dong Lu, Hao Zhang, Mingyue Zheng, Huaiyu Yang, Yechun Xu, Cheng Luo, Weiliang Zhu, Kunqian Yu, and Hualiang Jiang Applying high-performance computing in drug discovery and molecular simulation http://nsr.oxfordjournals.org/content/3/1/49.full INTERVIEW Wenguang Chen The demands and challenges of exascale computing: an interview with Zuoning Chen http://nsr.oxfordjournals.org/content/3/1/64.full; 个人分类: 国家科学评论|5140 次阅读|0 个评论

从“虚”到“实”的云计算发展过程: zhaoyongke 2015-10-24 12:47; 经历了野蛮生长阶段的云计算，现需要回归理性。简要概括下云计算经历过的几个阶段，对未来做一些展望。 0. 史前大型机，中型机，小型机，个人计算机，移动设备。历史文献自查。 1. 虚拟化将计算资源、存储资源从用户自己的机器、硬盘，迁移到云上的虚拟机、网盘，将硬件资源软件化； 2. 隔离出于安全考虑，将使用不同资源的用户在逻辑上进行隔离，让用户感觉不到其他用户的存在； 3. 虚拟网络用户选择弹性扩容的方式有两种：纵向扩容和横向扩容。纵向扩容就是升级配置，横向扩容就是购买多个实例。纵向扩容可靠性不如横向扩容，而且成本相当，所以大多数都选择横向扩容。在多个实例之间构建虚拟专用网络（VPC），属于同一个用户的实例就可以拥有更多自由。 4. 物理机如果用户追求更高计算性能（如深度学习、大数据计算），无论3中横向还是纵向扩容，总会受到虚拟化、调度系统的限制，损失性能（购买12核CPU虚拟机的性能与真正12核CPU性能差距一测便知）。虚拟机并不是为计算而生。真正的“云计算”，必须依托物理机实现，这是对密集计算的重视。这是回归自然。这是向能源致敬。但物理机并不能取代所有虚拟机，因为从弹性、易用性和动态扩展性考虑，虚拟机有很多优势，所以最佳解决方案应当是众星捧月式的架构，物理机作为计算中心，而虚拟机在外围提供各种服务。总结计算机发展过程，经历了从“实”到“虚”，又从“虚”到“实”，否定之后的否定，促进了其自身体系完备。最终形态虚实合一，相辅相成。最后打一广告，阿里云推出了面向高性能计算领域的GPU物理机服务（hpc.aliyun.com)，欢迎各位对HPC有需要的老师申请试用！; 个人分类: 新事物|2581 次阅读|0 个评论

IEEE今日计算2013年8月主题面向网格、高性能计算和云的专门硬件: tjhuang 2013-7-30 20:34; 面向网格、高性能计算和云的专门硬件英文原版请见 http://www.computer.org/portal/web/computingnow/archive/august2013 客座编辑导言 • Art Sedighi, 自由顾问 • 2013 年 8 月上世纪九十年代和本世纪前十年的大部分年头风行的是商品硬件，即广泛可用且价格不算贵的通用产，当时 X86 架构一统市场。后来风向变了，专门硬件渐成趋势，专门硬件是为专门目的而设计和建造的硬件平台，一典型例子是超级计算机 BlueGene 。就像当年通用硬件代替专门硬件一样，后者重整旗鼓、卷土重来，背后的原因是： · 节约成本：为什么要为用不上的东西破费呢？例如，高性能计算环境真的需要 PCI 桥吗？ · 节省能源：持续膨胀的基础设施的能耗已经难以为继，数据中心能耗已经见顶，还别说空间占用 · 信息饥饿：贪婪是一切事物背后的魔鬼。有关数据分析表明，随着处理器和服务器变得越来越快，我们需要的和消费的信息越来越多一句话，我们希望比以前更快、更好、更便宜的硬件，这就导致市场转向专用处理器（ ARM 、 FPGA 和 GPU ），它们更小、能耗相对低，可广泛应用于解决网格、高性能计算和云环境中的更专门的一小群问题。万用硬件不再必要采用到处可以得到的商品级组件，现在几乎每个人都能根据给定应用的性能、成本和能耗约束来设计建造专用硬件解决方案。“今日计算”本月主题选择的三篇文章展示了这个还在上升阶段的新趋势。在《 ARM 集群的能耗和成本效率分析》中， Zhonghong Ou 和他的同事对 X86 和 ARM 处理器上运行的负载进行了比较。特别地，他们评估了 4 个双核 ARM A9 和一个 4 核 Core2-Q9400 的性价比。从性能角度看，可以期望 Core2 能够战胜 ARM 处理器，但在成本和能耗方面， ARM 更高一筹。典型的 ARM 处理器的功耗是 1~5 瓦，而 X86 处理器却要 40 到 60 瓦（如果加上硬盘驱动器等外设，会超过 100 瓦）。作者用性能和功耗之比来表示能效（ energy efficiency ， EE ），这样两种技术路线就有可比性了。随后作者考察了三个不同的用例： · 采用 SQLite 的内存数据库 · 使用 Nglinx 和 httpd 的 Web 应用 · 使用 HD-VideoBench 的视频转码为了比较，作者用完成同样工作量的 ARM 处理器个数和 X86 处理器个数来计算两者的能效比（ EE ratio ）。内存数据库的能效比（ #ARM/#Intel ）是 2.6-9.5 ，而成本只有 Intel 方案的 2/3 。其它应用的能效比也大于 1 ，但内存数据库对网格和云架构来说更典型，因为它们都经常用到数据管理功能。在评估《面向高性能计算的 ARM 集群的性能和能耗评估》一文中， Edson L. Padoin 及同事又进了一步，他们用 ARM 主板构造了一个超大规模高性能计算环境。他们采用了的货架产品来自 PandaBorad.org (ARM A9 2-core) 和 BeagleBoard.org (ARM A8) ，板上运行的都是 4.5 版的 Ubuntu Linux ，并使用支持 ARM ISA 指令第 7 版的 GCC （ GNU Compiler Collection ）编译器。两种板都加载两种负载： 1000 x1000 的整数矩阵和浮点矩阵。采用 A9 芯片和双核的 PandaBoard 板在两种负载下都表现突出： 755MFlops 对 24MFlops 。虽然 A9 的时钟频率和性能都更高，但其能效还是高达 92 MFlops/Max Watt ，而 A8 相形见拙，只有 20 MFlops/Max Watt 。也就是说，计算性能的提升并不意味着能耗一定要同步增长。最后一篇主题文章是《论提升消息速度》， Holger Froning 及其同事讨论了他们在 EXTOLL 计划中的工作，该计划的目标是建造一种比常规 NIC 卡消息速度更快的专门硬件。网格和集群环境都运行在下层消息和通讯基础设施之上，诸如 MPP （大规模并行处理器）等登上 Top500 榜单的多数大型高性能计算系统都采用特别紧耦合的和高度集成的网络层来支持处理器之间的通讯，从而使得性能超过集群和网格。后者往往采用通用货架产品，因此比昂贵的 MPP 要便宜很多。 Extoll 是一款 6 口的专门 NIC 卡，采用 FPGA 来支持环网的动态配置和重配置。 Extoll 的主要特色是通过硬件级的虚拟化通信引擎来实现极低的开销和最小化的内容占用，从而更好地支持多核环境。下层网络协议和布局的虚拟化简化了到应用的集成，该团队已经把 Extoll 库集成到了 OpenMPI 。 Froning 和同事的报告显示， Extoll 的性能超越了 Infiniband Quad Data Rate 40G 和 10G 以太网，作者还在考虑用专用集成电路（ ASIC ）重建 Extoll 引擎，希望比 FGPA 版本的性能提高 5 到 10 倍。结论本月主题的焦点是应用于网格和云环境的 ARM 处理器和 FPGA 。推介论文表明这样一个事实：专门计算硬件已不再是大投入项目的“专利品”， ARM 处理器、 FPGA 和通用目的 GPU 正日益普及，性价比越来越好，其原因在于硬件生产成本越来越低，支持专门硬件的软件工具也越来越多。随着 ARM 、 FPGA 和 GPU 生态系统的成熟，它们的身影也会出现在关键任务应用和产品环境中。 ArtSedighi 是一位自由职业的顾问，专长与大型基础设施的设计与实现，是 Computing Now 的编委。他从伦斯勒理工学院获得计算机科学硕士学位，专业兴趣是调度和博弈论。他的联系方式是 sediga@alum.rpi.edu 和 http://phd.artsedighi.com 。（黄铁军译）; 个人分类: IEEE今日计算|3850 次阅读|0 个评论

协同高性能计算、网格和云 - IEEE 今日计算每月主题2013年第5期: tjhuang 2013-4-30 21:01; 协同高性能计算、网格和云客座编辑导言 • Art Sedighi • 2013 年 5 月英文原文请见：http://www.computer.org/portal/web/computingnow/archive/may2013 与把网格、云和高性能计算（ HPC ）这三种方法相互割裂开来的做法不同，今日计算本月主题的焦点是这些方法的互操作以及前进道路上可能会出现的问题。高性能计算、网格和云的协作本期主题首篇文章是来自 Stelios Sotiriadis 及其同事的《从元计算到互操作的基础设施》，这篇文章高屋建瓴，探讨了这些技术的适用对象： · HPC 的特点是应用和底层的同质基础设施之间紧密耦合，重点集中在客户自有环境的速度和性能。 · 网格计算的应用和基础设施之间的耦合度低。由于虚拟组织允许节点异质且分散在不同地理位置，因此应用对位置不敏感。重点是并行和分布式计算，对共享基础设施的访问受限。 · 云计算的应用和下层基础设施之间几乎没有耦合性可言。重点聚焦对可公开访问基础设施的按使用计费及随时随地的计算资源动态配置，较低的服务水平协议（ SLA ）一般是可接受的。没啥新鲜，对不对？差不多是这样。最近几年，协调和整合这些看似不同的环境一直令人纠结。 Sotiriadis 和同事提出了元调度器（ meta-scheduler ）的概念，能够将工作负载在这三种环境之间迁移。他们的文章着眼于本领域的当前研究点，特别是三种方法之间的鸿沟。元调度协助整合元调度器可以是集中的，也可以是无中心的，但最终目标都是在一个管理层下把多个环境整合在一起。 Thomas Rings 和 Jens Grabowski 在《云计算与网格计算基础设施整合实战》中展示了这种方法。他们认为元调度器必须能应对以下挑战： · 异构资源， · 跨本地和远程地点和环境的管理和调度， · 资源可能来来去去的动态环境； · 分散的地理位置， · 多资源类型和多地点下的负载平衡， · 故障和重新调度，以及 · 安全约束。这方面的研究虽然已经很多，但实际上才刚刚开始触及问题表面。 Rings 和 Grabowski 采取了非常务实的方法，专注于把一个网格内环境和亚马逊 Web 服务（ AWS ）的公共云计算基础设施整合起来。在他们所谓的“云服务中的网格（ grid-in-cloud-services ）”中，作者使用“计算资源的统一接口（ Uniform Interface to ComputingResources ， Unicore ）”把私有 IaaS 云（基础设施作为服务， infrastructure-as-a-service ）”在亚马逊公共 IaaS 云中进行实例化。这里的 Unicore 网关（或元调度器）控制内部网格和“云服务中的网格”基础设施之间的负载均衡。这是迈向互操作性的重大一步，特别是勾勒展示了这一领域仍然存在的挑战。 SLA 管理假若我们解决了整合外部云和内部网格或高性能计算环境的总体体系结构这个挑战，下一个进入舞台中央的就是定价问题，一个特别原因是它涉及到 SLA 、 SLA 管理和服务选择。也就是说，一旦我们弄清楚如何动态地转移负载，我们是否就能创造一个现货市场，即用户可以根据当前 SLA 和目标价格选择服务提供商，而资源可以立即购买和交付。例如，下午他们用便宜价格从一家供应商获得较低的 SLA ，而上午则向另一供应商付出高价，以满足更高的服务级别需求。我们的目标是把灵活性提高到一个新的水平，这样我们就能根据 SLA 和价格在多个云供应商之间进行迁移和负载平衡。考虑到这一点， Christoph Redl 和他的同事撰写的《网格和云计算市场中 SLA 自动匹配和供应商选择》讨论了一种 SLA 模板的实现，这种模板可用于谈判（ SLA 匹配）和法律合同签订（实时提供商选择）。通过 Web 服务标准——例如 WS- 协议或 WSLA ——进行实现，他们提出的 SLA 模板包含了机器学习算法进行合同谈判和达成所需要的数据（例如 SLA 指标、参数和服务水平的目标）。机器学习算法采用了 MAPE 风格的控制回路： 1 ）监视（ M onitor ）学习进度与建议， 2 ）分析（ A nalyze ）添加到数据库中的新知识， 3 ）规划（ P lan ）训练和修订， 4 ）执行（ E xecute ）训练。负载平衡和博弈论最后一篇主题文章是 Qin Zheng 和 Bharadwaj Veeravalli 的《论云计算系统中相互了解情况下最优定价和负载均衡策略的设计》，给出了解决 Redl 及其同事所提问题的策略。作者从博弈论角度对负载平衡进行深入研究（这是我特别感兴趣的一个话题，因为和我博士论文的研究工作密切相关，见 http://phd.artsedighi.com ）。底层系统的“博弈”——例如为了防止他人获取访问权而对基础设施进行压倒性的请求——会对其他用户的 SLA 造成不利影响。与此相反，资源预约系统不能被“博弈”，因为它对资源的划分并不根据用户的需要或要求而变化。其他方法也可以防止或至少减少“博弈”系统的能力。 Redl 和他的同事考察了提供商如何使用价格差异来防止“饥饿时间”，即因为系统被“博弈”而造成用户的服务请求被延迟，这与当前模型相左，当前模型寻求并发用户之间平均（或封顶）地使用，从而防止任何用户有机会“饿死”别人。网格环境中的竞争不如公共云中那样激烈，因为在公共云中用户相互合作对自己没有益处。在云计算环境中，两个用户可能代表相互竞争的不同公司，因此没有兴趣与对方合作。提供各种定价模型也可以帮助运营商最大限度地提高收入和增加使用量。作者的研究表明，服务提供商（内部的或外部的）简单地变化使用价格比强加限制或其它类似政策更容易影响用户行为。这似乎是显而易见的，但在充满不合作用户的云环境中，价格设置错误会导致收入下降，因为这样云就可能不再代表最有吸引力的选择。最终，这里的目标是建立体现了纳什均衡点的市场，在那个点上，没有一个单一服务提供商能够期望在改变价格的同时能指望利润增加。结论除非可以完全脱离当前环境（例如当旧服务器都寿终正寝时），在云计算向业已投资高性能计算和网格计算的领域渗透过程中，把高性能计算、网格计算和云环境进行高效的无缝集成和互操作都是一个重要挑战。从应用角度来看，最终用户关心的主要是他们的 SLA 和相关费用。把云的动态配置和适应能力引入到高性能计算和网格计算环境，可以使用户在满足服务水平需要方面进行权衡决策，本月主题的文章探索了能够实现互操作性的一些方法。 Art Sedighi 是在纽约市工作的一名自由顾问，专注于基础设施设计和实施。他拥有伦斯勒大学的计算机科学硕士学位和约翰斯·霍普金斯大学的生物技术和生物信息学硕士学位。 Sedighi 目前正在攻读纽约州立大学石溪分校的应用数学博士学位。请在 http://phd.artsedighi.com 访问他的博客和博士学位状态。他的联系电邮是 sediga@alum.rpi.edu 。（黄铁军译）; 个人分类: IEEE今日计算|3178 次阅读|0 个评论

高性能计算--算起来才是硬道理: 热度 16 jingpeng 2012-9-23 18:37; 前两天参加了浪潮公司举办的高性能计算用户大会，主题就是促进高性能计算的应用。目前，从国内来看，我们的计算硬件发展很快，天河1号都曾经挤入过top500的number 1！后来science出了篇评论，说中国虽然研制出了这么快的计算机，但缺软件和应用。据说某国家领导人都明确说，要用起来。这似乎是搓到了痛处。实际上，天河1号要用起来是非常困难的，他是CPU+GPU的混合架构，全CPU的使用问题还没有解决，就要同时用GPU，对于软件开发来说，是特别困难的。成熟软件要移植到GPU上，基本上代码要重写，而且针对GPU的优化是很需要技巧的，何况现在是混合架构。浪潮公司举办的这次会议，目的就是希望促进国内的高性能计算应用，同时也是开拓自己的市场。议程上有一个专门的天河1号使用报告，可惜我错过了～～会议上，有人举了一个例子，还是让我很吃惊。目前的软件，即使放在超级计算机上跑，平均的利用率还不到5%！也就是说，即使有软件跑，硬件的性能发挥也只在5%左右。这还是软件的问题，如果你有2万个核，只有1000个线程，那计算能力的利用也只是1000个核心。所以，现在国家也认识到了，以前的发展是重硬不重软，硬件的性能指标可以顶瓜瓜了，但这些指标却仅仅是数字，现在是发展效益的时候了。我们有很多研究项目，包括建立硬件系统，但软件的支持还是偏颇的。软件开发是一个非常需要人力的事，需要消耗大量的人力资源，而硬件上，有些计算机就可以了。在目前的体制下，软件开发人员申请项目是很不符合实际的。劳务费只占总经费10-15%左右，远远低于正常公司开发软件的需求。这一点在整个大会上都没人提到。没有软件，何来应用？主办方也在积极寻找应用合作单位，有需求的，可以主动和他们联系。这是全国产的千万亿次超级计算机，能国产还是很自豪的！芯片是神威，据说水冷系统很先进，进去基本上没什么声音。在控制面板上，有人随便点开一个机柜的信息，所有节点都是绿色的，说明是空着开机，没有一个节点在计算！还是缺应用啊，没应用，太可惜了。这些家伙都是按兆瓦来算功率的！浪潮开发的PB级存储系统，外形很酷，有点像变形金刚！参考资料： Stone, Richard, and Hao Xin. “Supercomputer Leaves Competition—And Users—in the Dust.” Science 330, no. 6005 (November 5, 2010): 746–747. Xin, Hao. “Critics Question China’s Indigenous Innovation Effort.” Science 334, no. 6061 (December 9, 2011): 1336–1337. ---------后记，2012/10/08/ 日本人也遇到这个问题，算的快，用不起来。看来是通病啊。 Normile, Dennis. “Utility Sacrificed for Speed, Supercomputer Critics Say.” Science 338, no. 6103 (October 5, 2012): 26–26.; 个人分类: 技术-方法|8351 次阅读|39 个评论

[转载]学术报告：海量数据处理与云计算研究: 热度 1 xiaohai2008 2012-7-17 10:56; 学术报告通知题目：海量数据处理与云计算研究报告人：徐惟佳博士美国德州州立大学高性能计算中心的研究科学家时间： 2012 年 7 月 18 日（星期三）下午 2:00 地点：中国科学技术信息研究所一层第五会议室（ 196 房间）（北京复兴路 15 号，中央电视台西侧）徐惟佳博士简历： 2009 年 9 月至今德州州立大学统计与科学计算系讲师。 2007 年 4 月至今德州高性能计算中心，研究科学家 2006 年 12 月获德州州立大学奥斯丁分校计算机系博士学位 . 研究方向是关于大规模数据管理及其在生物学方面的应用 . 2005 年九月至 2007 年 3 月，德州大学计算生物和生物信息学中心，助理研究员。 2000-2005 德州州立大学计算机系研究生 , 助教助理研究员。徐惟佳博士现在是德州州立大学高性能计算中心的研究科学家，负责数据挖掘和统计分析组的工作 , 主要工作包括和不同领域内的专家进行合作项目 , 开发新的大规模数据的分析方法。研究方向包括大规模数据的检索和访问 , 可视化分析以及云计算分析，并在这些方向上的发表 30 多篇的期刊和会议文章 . 主要研究资金来源于美国国家自然科学基金 (NSF), 美国国家卫生研究院 (NIH), 美国国家档案馆 (NARA) 以及德州州立大学 . 主持的项目还曾被美国国家自然科学基金、德州州立大学网站及一些科普网站 ( 如 livescience, sciencegrid) 和发现杂志（ Discover ）介绍或引用过。徐博士同时在德州州立大学的统计与科学计算系从事教学工作，讲授关于数据挖掘、可视化分析方面的长期课程和短期课程。更多具体信息请参见 http://www.tacc.utexas.edu/staff/weijia-xu/ 报告提纲：计算机技术和网络技术的发展，极大地促进了数字数据的产生和传播。随之而来的挑战是如何有效的应用和分析这些数据使之最终转化为知识。关于这方面的研究，诸如云计算技术最近得到了从工业界，到学术界乃至美国政府的大量的关注。本次报告将首先介绍一下美国对于大数据分析应用方向上的一些最新关注。重点讲解有关云计算的概念、基本架构、学术成果、技术和应用。包括关于 map reduce 编程模式和 hadoop 开源库的一些简介。最后将介绍一下德州计算中心云计算（动态 hadoop 运行环境）的工作和应用实例。本次报告将着重在介绍一些基本知识和最新动态，欢迎对于有关大数据处理和云计算有兴趣的各位老师同学参与讨论。欢迎所内外各界人士踊跃参加！技术支持中心学术委员会二 0 一二年七月十六日; 个人分类: 随笔|2293 次阅读|4 个评论

南京理论和高性能计算化学会议: 热度 2 chemicalbond 2012-6-15 06:26; 下午给以前的导师打了个电话，算是问候一下。没想到他下个月就要来北京，并且参加在南京举行的一个会议。 http://ict-hpcc12.vlcc.cn/dct/page/65581 那个会议是关于理论化学和高性能计算化学，做报告的人还不少，只是还没有见到各自的报告题目。这让我想起不仅前访问了北京生命科学研究所的黄牛博士实验室，他的实验室就有好几百台电脑，专门有人给他管理。对于药物设计来说，大量的电脑也是个很好的资源。有时可以采用虚拟筛选的方法来获得项目的一个出发点，有时也可以做些长时间的分子动力学模拟，以获得体系结构更加真实的情况。不过，实际工作中，更常见的是对某些活性分子进行改造，对计算资源的需求不是很高，更多需要的是把别人的分子改成自己拥有知识产权的分子的IDEAS。小的改造叫做ME-TOO，大的改造叫做ME-BETTER，都是想着找寻专利里面的破绽：看着别人的优秀分子自己也想搞出一个。要是想打断原来分子的筋骨试图设计出真正的新结构，那就可能需要动用DE NOVO 的方法。 5月份在南京的分子模拟会议【1】上遭遇了传说中的药物设计牛人，恒瑞公司的前CSO，邓炳初博士。【1】 http://blog.sciencenet.cn/blog-437346-571748.html 他的报告讲的是新药研发中如何立项，尤其是讲在国内流行的ME-TOO，ME-BETTER那些套路。邓博士的报告非常精彩，其价值远远超过了会议开始时所有院士的废话总和。会后我们还交换了一下PPT。值得一提的是，几乎就是去年这时，他还在广东的东阳光，他们的招工广告打进了美国《科学》杂志等要地，而我还在美国象无头苍蝇一般地找事做：他给我打了1个多小时的国际长途电话，试图“忽悠”我回去跟他干。条件都谈了很多，有鼻子有眼镜的，包装得不错。不过，后来就没有下文了，只听说他离开了东阳光。最近才知道他加入了西藏的一个公司。当然，西藏是不会有像样的医药研发，成都才是他们的根据地 http://www.haisco.com/rdc/?aboutid=33; 个人分类: 科普与新知|4058 次阅读|6 个评论

[转载]普适高性能计算计划获得首个基准规范: sailor08 2011-1-5 15:19; 据abouthpc.com消息，近日，美国路易斯安那州立大学（LSU）计算与技术中心（CCT）计算领域的科学家Steven Brandt向美国国防高级研究规划局（DARPA）的普适高性能计算（UHPC）计划交付了首个“chess benchmark（国际象棋基准）”规范。UHPC计划是DARPA最新的高性能计算研究活动，旨在创造一台能战胜目前功耗和编程限制的革命性的新一代计算系统。 UHPC的目标是交付一台单机柜性能达到1Petaflops的系统，能耗为57千瓦，包括冷却能耗。 LSU还参与了由乔治亚理工研究学院（GTRI）领导的“TA2”项目，该项目旨在开发应用、基准和标准以支持DARPA评估四个TA1小组的系统设计。该chess benchmark服务是基于图形决策问题的一个范例，在非典型及重要的设计方面强调以UHPC系统的候选者为主。特别是一个有效的国际象棋程序是一个动态的基于图形的运算，它能够通过该系统分配或重新分配大量的并行任务、同步及传递状态信息，并且可以选择取消整个组的运行计算。 LSU CCT的计算机科学专家Thomas Sterling教授表示：“这些性能主要应用于国防部搜索或战术分析方面的大量任务验证; 个人分类: CnBeta|1806 次阅读|0 个评论

推荐国内高性能计算服务器做的较成功的几家公司: zhangcdc 2010-4-19 17:31; 各位与会代表，大家好！近年来，随着高新能计算机技术的发展与推广，特别是并行计算方法的广泛采用，许多复杂体系动力学理论计算和实验问题都可以利用计算机进行仿真模拟加以解决。高性能并行运算方法的不断推广，不仅大大缩短了机时，提高了计算效率，而且既可以用来处理传统解析的方法无法求解的理论问题，特别是可以模拟实验条件下难以完成的复杂体系的在体实验，并对这些复杂体系的某些功能进行预测和验证，并可以从各种杂乱的数据中提取有用的信息。鉴于此，本次会务组有幸邀请了国内在高性能服务器方面做得比较成功的几家公司参加本次会议，与大家近距离的接触，探讨复杂体系理论计算方面的有关问题。大家如果有什么疑难问题，包括计算服务器的搭建、软硬件的调试、运行等等方面，都可以现场向这几家公司的工程技术人员进行咨询，他们将为您提供免费的必要的服务。这将能带给您本次会议的意外收获与惊喜，希望您能不要错过这次良机，积极与他们沟通，探讨，或许在与这些工程技术人员的探讨交流的过程中，找到了此前一直困扰您的计算方法问题的解决方案，果真如此，那将使您的科研工作百尺竿头更进一步。您在参加会议之前，可以到相应公司网站去逛逛，会议期间就可有针对性的了解相关内容。呵呵！相关公司链接如下：上海艮泰信息技术有限公司北京宏剑公司芜湖惠通公司; 个人分类: 计算服务器信息|9598 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 高性能计算

相关帖子

相关日志

关闭安全验证