科学网

 找回密码
  注册

tag 标签: 超算

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

降低运算精度提升预报模式运算效能
热度 1 xuxfyuwp 2020-11-3 21:42
山姆 · 哈特菲尔德( Sam Hatfield ) 今年 9 月举办的欧洲中期天气预报中心( ECMWF )研讨会重点讨论了大气和海洋建模数值方法的最新进展和未来前景。会上,活动的组织者之一山姆·哈特菲尔德( Sam Hatfield )介绍了他正在研究的通过在数值计算中使用较低运算精度的算法来降低数值天气预报计算成本的方法。这里所谓较低精度是指在计算中的实型数保留较少有效位数。 对降低计算成本的追求,显然与在数值预报计算中日益增长的计算量有关。由于模式分辨率的提高、集合预报中参与计算的模式增多、气候模式中多圈层耦合计算及积分时间延长等,都使得计算需求迅速扩充,而当高性能计算能力的发展尚无法与需求相匹配时,设法节省计算量便成为必然选择。 节省计算量可以缩短计算时间,提高运算效率,但显然不能以牺牲预报技巧为代价,否则所谓节省也就失去了意义。那么,怎样选择适当的精度达到预期目标呢?山姆所追求的正是一个在不降低预报结果技巧条件下降低计算精度的微妙过程,包括从软件到硬件的改变,从而为改进数值预报的计算环境和效率提供支持。 山姆毕业于英国布里斯托尔大学,在那里攻读物理学位时首次接触到超级计算机。后来,山姆在牛津大学攻读环境研究博士学位时开始与欧洲中期天气预报中心( ECMWF )结缘。那时,他的主管蒂姆·帕尔默( Tim Palmer )和彼得·杜本( Peter Dueben )等人已经在研究如何提高高分辨率天气预报模式的算法,并建议山姆专注于其中的数值同化问题,因为在 ECMWF 的各类模式计算中,同化部分要消耗计算量的一半。 山姆并没有按照常规做法去研究数据同化模式的计算方法,而是与同事一起开发了一个简易的超级计算机行星模拟系统( Raspberry Pi Planet Simulator ),试图从计算机的基本构造方法及充分利用资源的角度来研究如何高效地进行地球系统建模。尽管这个自制的超算系统看起来像个玩具,但山姆正是以此为依托开始了探索如何优化超算算法之路,尝试通过降低运算精度来节省数据同化成本的方法。 Sam 和他的同事 建造了自己的超级计算机 ( Raspberry Pi 行星模拟器)系统,以期了解 超级计算机的制造方法以及如何充分利用它们来进行地球系统建模。 由于拥有了自己的“超算系统”,山姆可以自如地开展计算试验。他通过逐渐降低运算精度的调节旋钮,检验不同算法的效果,找到模式运算过程中会产生断裂性变化的节点,最终实现了在保持模式技巧不变的条件下,“一直可以将计算位数下降到 16 位,保持单精度计算,这仅是通常用于生成天气预报计算精度的四分之一”。后来,他又通过简化的大气模型 SPEEDY 进行了同样的试验,得出了类似的结果。 这一试验结果使山姆获得了在日本理化研究所 RIKEN 高等计算科学研究院( AICS )进一步开展工作的机会,那里的试验使山姆确信完全可以使用较目前进行数据同化计算低得多的精度来获取同样的结果。他对这一结果的解释是:“运算精度并不特别重要,因为模式计算中还有许多其他不确定性因素,会抵消在计算中使用较低精度造成的误差。”这意味着单纯追求运算精度来提高预报技巧没有实际意义,只要能解决好运算过程中与精度相匹配的具体计算方法问题就可以了。 以 9 km ( TCo1279 )分辨率运行的天气预报模式 500 hPa位 势高度的均方根误差( RMSE ),通过双精度和半精度做 Legendre 变换的分析验证。 与 ECMWF 的 IFS 模式一样, SPEEDY 的动力核心框架也是谱模式。山姆和他在牛津大学的合作伙伴马特·钱特里( MatChantry )发现,当这类模式在高分辨率状态下运行时,进行勒让德( Legendre )变换时计算资源消耗较任何其他过程都显著增大,便试图尝试以某种降低精度的算法来提升这部分的运算效率。 通过比较,他们发现 Legendre 变换计算与人工智能( AI )中使用的矩阵乘法非常相似,如果能将在设计上已很成熟的机器学习硬件用在模式的计算中,显然可以提升模式计算速度。试验结果令人兴奋,证明确实可行,只需保持半精度计算,就可以使 IFS 模式达到原有预报技巧,在 9 公里分辨率条件下仍然可以满足。以往还没有人能在如此高的高分辨率复杂模型中使用这样低的计算精度。为了节省时间,这项试验研究是在软件仿真器上实现的,而非通过真正的 GPU 或 AI 硬件。 ECMWF 的科学家希望明年能申请到 INCITE 计划奖金,在橡树岭实验室的“顶点”超级计算机上进行这一试验。山姆相信通过机器学习芯片加速天气模式计算的设想会奏效,并认为这一结果会影响到今后高性能计算机的采购需求。降低计算精度的想法不仅是一项学术研究,也不单纯是为了气象业务应用,而将成为影响未来 10 年甚至 20 年高性能计算机发展非常重要的主题。 从山姆的工作中可以得到的启示是,对于数值预报技术的发展,除考虑模式本身的研究外,还要将计算技术与方法作为一个重要的领域予以重视,计算能力的提升和优化若不能与模式发展中不断出现的各项新需求相匹配,必将影响到整体发展的进程。另一方面,研究领域不能仅限于软件算法,而应像山姆那样,对整个计算机结构进行剖析认识,包括对人工智能技术特点的理解,才有可能通过有针对性的试验达到预期的改进目标,这显然需要更系统、扎实的专门知识。 《中国气象报》
个人分类: 文章|7181 次阅读|1 个评论
EC和Atos联合成立天气气候建模卓越中心
xuxfyuwp 2020-10-21 22:32
卫星和模拟卫星图像 左图为 MSG 卫星可见光图像,右图为同一时刻的 48 小时全球预报,网格间距为 1.4 km ,可以清晰显示出深对流天气。如此高分辨的数值模拟有助于增进对地球天气和气候的理解。(图片由 EUMETSAT / ECMWF 提供) 10 月 5 日,欧洲中期天气预报中心( ECMWF )与信息技术公司 Atos 宣布将合作成立一个新的卓越中心( Center of Excellence , CoE ),目的是解决在天气、气候模式中所面临的高性能计算( HPC )、人工智能( AI )和量子计算问题,为 ECMWF 研究团队提供与这些新兴领域发展相关的技术支撑,包括充分利用即将在意大利博洛尼安装的高性能计算资源,最终支持 ECMWF 在中长期天气预报和全球气候模式的研发工作。 利用最新的技术发展成果, ECMWF 研究人员将能够提高对因气候变化引发的极端天气事件及其强度和其他天气现象的预测能力。新的中心将配备 Atos 最新的 BullSequana 超级计算机, ECMWF 研究人员将与 Atos 专家和技术合作伙伴紧密合作,开发支持下一代天气预报的新技术,促进天气、气候研究和业务创新,同时协助 ECMWF 为未来高性能计算和数据处理构建新的框架体系做好准备。 ECMWF 总干事弗洛伦斯·拉比耶( Florence Rabier )博士认为,“将世界一流的计算机、计算科学和地球系统科学领域的专家汇集在一起,对于推进我们的中长期天气预报水平继续提升至关重要。新的中心将以双方以往的成功合作为基础,帮助我们在改善预测极端天气事件的发生和与气候变化相关的其他事件能力方面发挥重要作用。” Atos 相关负责人表示:“我们很高兴与 ECMWF 一起建立这个卓越中心,研究人员将能够通过验证来探索 HPC 和 AI 技术在实际中的有效用法。人工智能辅助的高性能计算在气候和天气预测方面具有巨大潜力,一些刚刚开发的新技术方法也将被引入。” ECMWF 正在致力于研究和开发人工智能和机器学习等最先进的技术,并试验如何将其用于提升天气和气候预测能力。作为新的 CoE 工作内容,优先项目是如何在 ECMWF 预报模式软件基础架构中测试和使用这些技术,在地球系统建模和数值天气预报流程中都将引入机器学习解决方案。 该中心第二个初始项目将寻求开发基于 CPU-GPU 的集成预测系统( IFS )版本和波动模式 WAM ,并为适应新技术准备 ECMWF 产品生成方式和以数据为中心的新工作流程。研究团队将开发新的流程,并在硬件设备上测试,检验对性能产生的影响,最终目标是为节能的异构超大规模计算机准备 ECMWF 模式代码。 第三个项目旨在开发基于用户使用经验的 HPC 操作系统工具。该研究将由 ECMWF 新的 Atos BullSequana XH2000 超级计算机提供支持,也是世界上功能最强大的气象超级计算机之一。该系统配备了 BullSequana X2415 叶片,装有市场上功能最全面的 AI 软件套件 Atos Codex AI Suite ,并提供先进的 GPU 计算和 AI 支持,使 ECMWF 研究人员能够提高对复杂数据的处理时效,从而利用深度学习和分析的能力更快地获得对数据的理解。 CoE 还将使用 Atos 的量子学习机( QLM ),这也是目前最先进的量子计算模拟器,用以探索量子计算如何影响未来的天气和气候预测。来自 AMD 、 Mellanox 、 Nvidia 和 DDN 的专家也将提供支持,探索加速计算技术以及相关的数据存储和访问问题。 《中国气象报》
个人分类: 文章|4482 次阅读|0 个评论
Intel+MKL编译vasp-5.3.5
xyliucd 2020-6-25 23:07
vasp的编译既简单又复杂——很容易得到执行文件(简单),但是计算速度如何又另说了(真不是夸张)。笔者经过GNU编译的各种坑,最后测试还是Intel编译的并行版本速度最快。以下以5.3.5版本为例,说一下使用Intel Parallel Studio 2017的编译过程*。 *注:参考 https://software.intel.com/content/www/us/en/develop/articles/building-vasp-with-intel-mkl-and-intel-compilers.html 系统:CentOS 7 编译环境:Intel parallel studio 2017 其他说明:将vasp.5.3.5.tar.gz和vasp.5.lib.tar.gz放在同一目录下。 Step 1:编译vasp.lib $tar-vxfvasp.5.lib.tgz $cdvasp.5.lib 修改makefile.linux_ifc_P4的编译器如下: CPP=icc-E-P-C$*.F$*.f FC=ifort 然后编译vasp.lib,编译完成后回到上级目录: $ make -f makefile.linux_ifc_P4 $ cd .. Step 2: 编译vasp-5.3.5 解压: $tar-vxfvasp.5.3.5.tar.gz $cdvasp.5.3 在makefile.linux_ifc_P4基础上修改,笔者这里直接贴出修改后的结果,可以直接拷贝做成一个新的makefile.intel2017: .SUFFIXES:.inc.f.f90.F SUFFIX=.f90 FC=mpiifort FCL=$(FC) CPP_=./preprocess$*.F|/usr/bin/cpp-P-C-traditional$*$(SUFFIX) CPP_=fpp-f_com=no-free-w0$*.F$*$(SUFFIX) FFLAGS=-FR-nameslowercase-assumebyterecl-I$(MKLROOT)/include/fftw OFLAG=-O2-xHost OFLAG_HIGH=$(OFLAG) OBJ_HIGH= OBJ_NOOPT= DEBUG=-FR-O0 INLINE=$(OFLAG) MKL_PATH=$(MKLROOT)/lib/intel64 MKL_FFTW_PATH=$(MKLROOT)/interfaces/fftw3xf/ BLAS=-mkl=cluster LAPACK= LIB=-L../vasp.5.lib-ldmy\\ ../vasp.5.lib/linpack_double.o$(LAPACK)\\ $(BLAS) LINK= CPP=$(CPP_)-DMPI-DHOST=\\LinuxIFC\\-DIFC\\ -DCACHE_SIZE=32000-DPGF90-Davoidalloc-DNGZhalf\\ -DMPI_BLOCK=64000-Duse_collective-DscaLAPACK-DMKL_ILP64 FFT3D=fftmpiw.offtmpi_map.offtw3d.offt3dlib.o/opt/intel/mkl/lib/intel64/libfftw2xf_double_intel.a INCS=-I$(MKLROOT)/include/fftw BASIC=symmetry.osymlib.olattlib.orandom.o SOURCE=base.ompi.osmart_allocate.oxml.o\\ constant.ojacobi.omain_mpi.oscala.o\\ asa.olattice.oposcar.oini.omgrid.oxclib.ovdw_nl.oxclib_grad.o\\ radial.opseudo.ogridq.oebs.o\\ mkpoints.owave.owave_mpi.owave_high.ospinsym.o\\ $(BASIC)nonl.ononlr.ononl_high.odfast.ocholeski2.o\\ mix.ohamil.oxcgrad.oxcspin.opotex1.opotex2.o\\ constrmag.ocl_shift.orelativistic.oLDApU.o\\ paw_base.ometagga.oegrad.opawsym.opawfock.opawlhf.orhfatm.ohyperfine.opaw.o\\ mkpoints_full.ocharge.oLebedev-Laikov.ostockholder.odipol.opot.o\\ dos.oelf.otet.otetweight.ohamil_rot.o\\ chain.odyna.ok-proj.osphpro.ous.ocore_rel.o\\ aedens.owavpre.owavpre_noio.obroyden.o\\ dynbr.ohamil_high.ormm-diis.oreader.owriter.otutor.oxml_writer.o\\ brent.ostufak.ofileio.oopergrid.ostepver.o\\ chgloc.ofast_aug.ofock_multipole.ofock.omkpoints_change.osym_grad.o\\ mymath.ointernals.onpt_dynamics.odynconstr.odimer_heyden.odvvtrajectory.osubdftd3.o\\ vdwforcefield.onmr.opead.osubrot.osubrot_scf.opaircorrection.o\\ force.opwlhf.ogw_model.ooptreal.osteep.odavidson.odavid_inner.o\\ electron.orot.oelectron_all.oshm.opardens.o\\ optics.oconstr_cell_relax.ostm.ofinite_diff.oelpol.o\\ hamil_lr.ormm-diis_lr.osubrot_cluster.osubrot_lr.o\\ lr_helper.ohamil_lrf.oelinear_response.oilinear_response.o\\ linear_optics.o\\ setlocalpp.owannier.oelectron_OEP.oelectron_lhf.otwoelectron4o.o\\ gauss_quad.om_unirnk.ominimax_tabs.ominimax.o\\ mlwf.oratpol.oscreened_2e.owave_cacher.ochi_base.owpot.o\\ local_field.oump2.oump2kpar.ofcidump.oump2no.o\\ bse_te.obse.oacfdt.ochi.osydmat.o\\ lcao_bare.ownpr.odmft.o\\ rmm-diis_mlr.olinear_response_NMR.owannier_interpol.olinear_response.oauger.ogetshmem.o\\ dmatrix.o vasp:$(SOURCE)$(FFT3D)$(INC)main.o rm-fvasp $(FCL)-ovaspmain.o$(SOURCE)$(FFT3D)$(LIB)$(LINK) makeparam:$(SOURCE)$(FFT3D)makeparam.omain.F$(INC) $(FCL)-omakeparam$(LINK)makeparam.o$(SOURCE)$(FFT3D)$(LIB) zgemmtest:zgemmtest.obase.orandom.o$(INC) $(FCL)-ozgemmtest$(LINK)zgemmtest.orandom.obase.o$(LIB) dgemmtest:dgemmtest.obase.orandom.o$(INC) $(FCL)-odgemmtest$(LINK)dgemmtest.orandom.obase.o$(LIB) ffttest:base.osmart_allocate.ompi.omgrid.orandom.offttest.o$(FFT3D)$(INC) $(FCL)-offttest$(LINK)ffttest.ompi.omgrid.orandom.osmart_allocate.obase.o$(FFT3D)$(LIB) kpoints:$(SOURCE)$(FFT3D)makekpoints.omain.F$(INC) $(FCL)-okpoints$(LINK)makekpoints.o$(SOURCE)$(FFT3D)$(LIB) clean: -rm-f*.g*.f*.o*.L*.mod;touch*.F main.o:main$(SUFFIX) $(FC)$(FFLAGS)$(DEBUG)$(INCS)-cmain$(SUFFIX) xcgrad.o:xcgrad$(SUFFIX) $(FC)$(FFLAGS)$(INLINE)$(INCS)-cxcgrad$(SUFFIX) xcspin.o:xcspin$(SUFFIX) $(FC)$(FFLAGS)$(INLINE)$(INCS)-cxcspin$(SUFFIX) makeparam.o:makeparam$(SUFFIX) $(FC)$(FFLAGS)$(DEBUG)$(INCS)-cmakeparam$(SUFFIX) makeparam$(SUFFIX):makeparam.Fmain.F base.o:base.incbase.F mgrid.o:mgrid.incmgrid.F constant.o:constant.incconstant.F lattice.o:lattice.inclattice.F setex.o:setexm.incsetex.F pseudo.o:pseudo.incpseudo.F mkpoints.o:mkpoints.incmkpoints.F wave.o:wave.F nonl.o:nonl.incnonl.F nonlr.o:nonlr.incnonlr.F $(OBJ_HIGH): $(CPP) $(FC)$(FFLAGS)$(OFLAG_HIGH)$(INCS)-c$*$(SUFFIX) $(OBJ_NOOPT): $(CPP) $(FC)$(FFLAGS)$(INCS)-c$*$(SUFFIX) fft3dlib_f77.o:fft3dlib_f77.F $(CPP) $(F77)$(FFLAGS_F77)-c$*$(SUFFIX) .F.o: $(CPP) $(FC)$(FFLAGS)$(OFLAG)$(INCS)-c$*$(SUFFIX) .F$(SUFFIX): $(CPP) $(SUFFIX).o: $(FC)$(FFLAGS)$(OFLAG)$(INCS)-c$*$(SUFFIX) fft3dlib.o:fft3dlib.F $(CPP) $(FC)-FR-lowercase-O2-c$*$(SUFFIX) fft3dfurth.o:fft3dfurth.F $(CPP) $(FC)-FR-lowercase-O1-c$*$(SUFFIX) fftw3d.o:fftw3d.F $(CPP) $(FC)-FR-lowercase-O1$(INCS)-c$*$(SUFFIX) fftmpi.o:fftmpi.F $(CPP) $(FC)-FR-lowercase-O1-c$*$(SUFFIX) fftmpiw.o:fftmpiw.F $(CPP) $(FC)-FR-lowercase-O1$(INCS)-c$*$(SUFFIX) wave_high.o:wave_high.F $(CPP) $(FC)-FR-lowercase-O1-c$*$(SUFFIX) wave.o:wave.F $(CPP) $(FC)-FR-lowercase-O2-c$*$(SUFFIX) paw.o:paw.F $(CPP) $(FC)-FR-lowercase-O1-c$*$(SUFFIX) cl_shift.o:cl_shift.F $(CPP) $(FC)-FR-lowercase-O2-c$*$(SUFFIX) us.o:us.F $(CPP) $(FC)-FR-lowercase-O1-c$*$(SUFFIX) LDApU.o:LDApU.F $(CPP) $(FC)-FR-lowercase-O2-c$*$(SUFFIX) 注意这里笔者使用的是libfftw2xf_double_intel.a库文件,因为使用3或者单精度版本会导致有些计算出错。 然后编译即可(这里不要加-j参数,会出错): $make-fmakefile.intel2017 即在该目录下生成可执行文件vasp。 Step 3(可选): vasp的modulefile和slurm脚本 笔者设置的vasp modulefile如下: #%Module1.0 conflictvasp prepend-pathPATH/opt/vasp/5.3.5/bin 针对笔者自己搭建的超算集群,vasp的slurm脚本如下: #!/bin/bash #这里指定作业名称,注意vasp的输入文件无需特意指定 #SBATCH--job-name=test #提交到哪个队列(分区) #SBATCH--partition=E5-2640V4 #使用多少个节点 #SBATCH--nodes=4 #每个节点使用多少核 #SBATCH--ntasks-per-node=20 #错误和输出文件 #SBATCH--error=%j.err #SBATCH--output=%j.out #加载vasp moduleloadvasp/5.3.5 #以下行如果不懂,可以不管,按默认的即可。如果你知道其含义的话,可以进行自定义修改。 #以下生成MPI的nodelist CURDIR=`pwd` rm-rf$CURDIR/nodelist.$SLURM_JOB_ID NODES=`scontrolshowhostnames$SLURM_JOB_NODELIST` foriin$NODES do echo$i:$SLURM_NTASKS_PER_NODE$CURDIR/nodelist.$SLURM_JOB_ID done #生成nodelist结束 #通过MPI运行VASP mpirun-genvI_MPI_FABRICS=tcp-machinefile$CURDIR/nodelist.$SLURM_JOB_IDvasp$SLURM_JOB_NAME.sta #运行完后清理nodelist rm-rf$CURDIR/nodelist.$SLURM_JOB_ID
个人分类: 超算技术|4890 次阅读|0 个评论
20年超算之路,联想用“融合”念计算之名
bonjourgl 2019-7-16 20:48
7月12日参加2019联想全球超算峰会,才惊觉,原来联想做超算已经20年了。 也难怪这次联想超算大会大咖云集:联想集团首席科学家 祝明发 自不必说,中科院计算所所长 孙凝晖 、中山大学数据科学计算机学院院长 钱德沛 、中科院软件研究所研究员 孙家昶 、北京应用物理与计算数学研究所研究员 袁国兴 、中国科学院超算中心副主任 迟学斌 、国家超算济南中心主任 张云泉 等超算领域的一众专家悉数到场,就连平时很少现身的寒武纪科技创始人兼CEO 陈天石 都来捧场。 大咖云集 超算20年,联想“深腾” 一直以来,大家听到的超算界的扛把子,通常是“神威”“天河”“曙光”这三大品牌,相较之下,联想超算显得有些低调。其实早在1999年,联想就成立了高性能计算(HPC)部门,实现了联想超算的从0到1。 在20年的发展中,颇有些标志性的事件 —— 联想超算部门成立的第三年,也即2002年,联想研发了世界上第一台万亿次集群“深腾1800”,世界排名第43位,中国超算开始在全球超算TOP500排行榜上拥有姓名。 2003年,联想“深腾6800”在全球超算TOP500上排名第14位,这个排名是当时中国超算最好的名次。 2007年,英国威廉姆斯车队购买一台8万亿次的联想“深腾1800”超级计算机用于其赛车的研制,成为联想超算走向世界的一个标志。 2009年,联想推出“深腾7000”,这台机器被安装在中科院网络中心作为主服务器, 这是我国第一套百万亿次计算集群。 当时世界排名第19位。 2011年,联想温水水冷技术投入商用,世界上第一台大规模温水水冷系统SuperMUC诞生。如今,联想将为哈佛大学部署800台高密度服务器SD650,“海神”水冷技术将正式登陆北美。 从2018年6月开始,联想连续四次获得世界超算TOP500排行榜份额全球第一。 对于这些标志性节点事件,联想集团首席科学家、北京航空航天大学教授祝明发最为感触的是,深腾1800作为产品出现在人们视野的这段历史。 “中国开始有一批高性能计算机进入全球超算TOP500的排行榜,是从深腾1800开始的;向世界证明集群架构可以做成大规模超算产品,也是从深腾1800开始的。” 祝明发进一步点出:“深腾1800和深腾6800的成功,让人们看到了集群计算的未来。” 而2007年英国威廉姆斯车队向联想求购“深腾1800”,在祝明发看来也难能可贵:“那时候联想就已经出口超算到发达国家。” 之后,联想万亿次超算也很快在气象局、油田等单位部署投用,同时深腾7000等机型也在支持国内科研需求和应用,“伴随着国家发展一起向前走”。 从全球超算TOP500排行榜上可以看出,近年来联想虽然没有打造出类似“神威·太湖之光”及“天河二号”这样的超级计算机,但其全球领先的份额占比,已经揭示了联想超算经历20年发展在商业中取得的成功。 在联想看来,只有把跨越式创新推广为大规模的市场价值,才能获得技术创新的持续动力和良性循环。 “深腾”也代表着只有深耕市场、实现产业化才能让超算真正腾飞。 “联想超算20年的发展走在了时代脉搏的节拍上。 ”用联想集团高级副总裁、联想数据中心业务中国区总裁童夫尧的话来说,过去20年里,中国乃至全球的信息化发展速度前所未有,也带给了联想超算取得黄金发展的机会。 童夫尧 未来,随着全球信息化进入全面渗透阶段,摆在联想和全球超算面前的命题将是“融合”。童夫尧说,这也是联想在2019联想全球超算峰会上首次提出“融合计算”的动因。 “融合计算”, 顺势而为 祝明发认为,“融合计算”是大数据和人工智能技术发展到一定阶段的应有之义。 “计算发展到‘融合计算’是一个自然而然的进程。”祝明发说,如果说云计算时代“融合计算”的特征还不明显,那么在大数据、AI蓬勃发展的今天,人们对于计算服务的需求,尽显“融合计算”的特征。 “从企业来讲,联想以综合计算平台提供计算能力,并提供人工智能基本的算法、工具和开发平台,让用户在这个平台上使用智能计算,甚至让用户实现人工智能应用,扩展人工智能的内涵。 ” 由此观之,联想提出“融合计算”并非刻意为之,而是顺势而为, 用融合计算的形式匹配用户新的计算需求 。 面对未来计算的发展,联想“融合计算”聚焦以超算技术为核心的技术融合、行业融合和生态融合。 技术融合 是指搭建融合计算平台,以更好的异构性、集成化、智能化来支持超算技术与人工智能、物联网、大数据的融合,引领技术和产品的研发生产。 联想在本次超算峰会上发布的“深腾X9000”系统,就是为此准备已久的元素之一。 “深腾X9000”是联想倾力打造的融合计算平台 据介绍,深腾X9000融合计算平台集合了AR/VR、分布式训练、人脸识别、语义识别等基本能力,支持服务器HG680X、HG690X,以及采用第二代英特尔®至强®可扩展处理器的SR650、SR670等服务器产品,以强大计算能力加速智慧金融、智慧物流、智慧供应链、智慧医疗等多个行业的创新实践。 此外,“深腾X9000”系统基于用户的不同需求,提供了在多个服务器硬件产品系列的基础上配置CPU/GPU/Xeon Phi/FPGA/寒武纪等多种处理器和加速器的异构硬件平台 (瑞士军刀模式) 。同时通过结合联想第四代温水水冷技术“海神”、搭载联想新一代智能超算平台LiCO5.3等手段,使一个集群可以同时运行高性能计算和人工智能开发作业,让HPC+AI合二为一。 行业融合 是指联想超算技术及产品团队,积极地与科研、教育、航天、气象、石油石化、生命科学等等行业应用相结合,洞悉领域计算需求变化,以产学研用一体化体系共同促进计算服务的升级。 国家重大专项项目“深腾7000”就是一个最好的例子。 深腾7000由联想集团牵头、中科院网络中心和北京航空航天大学共同建造。中科院网络中心作为用户,向联想提出需求、提供开发助力,从而得到更好用的超算;北航作为参建方,在项目实施中积累大量的经验、培养大批人才;联想则在超算建设部署之中引入了更多新的力量、促进技术的发展。通过产学研用,项目收获了“三赢”局面。 深腾7000 “这里的‘用’不是简单的用,而是各方会对机器性能、功能及易用性——包括系统软件、应用软件提出要求,联想也得以及时更新计算机研制目标,使研发工作更具有针对性。”祝明发称,这种产学研用结合的效果非常好。 联想超算的 生态融合 则是在加强软硬件上下游纽带联系的基础上,致力于构建从硬件到软件的行业解决方案的完整生态链。童夫尧表示,在硬件方面,联想将继续加深与英特尔、寒武纪等厂商的紧密合作;在软件层面,联想将积极主动开放生态系统,吸引主流厂商加入“融合计算”的联盟。 当天,寒武纪科技创始人兼CEO陈天石现身在2019联想全球超算峰会现场。他证实,早在寒武纪推出首款云端AI芯片时,联想就出产了搭载该芯片的服务器产品供用户选择;目前,寒武纪最新一代云端AI芯片“思元270”也在联想相关产品中得到装载。 寒武纪科技创始人兼CEO陈天石现身 孙凝晖将35年前诞生于中科院计算所的联想比作从计算所走出来的“大哥哥”,他希望如今身强力壮的联想能够带领寒武纪科技这些“小弟弟”走出国门,融合发展、服务全世界,一起把中国高性能计算和信息产业做大做强。 另外,联想创投不仅投资了寒武纪科技,还投资了Face++以及孵化自中科院自动化所的银河水滴等一系列有潜力的AI公司。这为联想打造人工智能行业解决方案完整的生态链奠定了基础。 “中国需要联想这样具有国际化视野和国际化能力,做好全球化资源整合的企业。”孙凝晖说,希望联想可以把全世界的好的技术带到中国,把中国的技术带向全世界。 化繁为简,让计算从N到1 天下大势,合久必分,分久必合。 计算机自诞生以来,演绎出多种计算服务提供形式。远有网格计算、图灵机,近有云计算、AI计算。结合近年来大数据、人工智能等应用的发展,联想从供给侧出发,希望用最“联想”的模式打造融合计算,化繁为简、从N到1,匹配这些计算需求。 因此有了HPC+AI+BDC (大数据计算) ,有了超算云服务,有了HPC+各行各业,有了异构+众核的混合HPC架构…… “未来就是融合战略,把高性能计算和应用结合起来。 ”祝明发说,随着应用的发展,未来联想HPC还会融合新的东西。 “融合是个趋势。”孙凝晖说。 “联想希望用开放的技术和业界标准的构建,搭建能力更强的计算机。”联想高性能计算高级架构师郝常杰说,这话听起来似乎没有太多技术含量,其实不是。 郝常杰 郝常杰说,比如,在使用标准技术组件的时候,是需要做进一步的二次研发的。 再如E级计算,除了想办法解决功耗墙难题,还要去想如何解决相应的一系列配套问题——内存、编程、可靠性、高速互联……等等,“联想早就在思考这些问题了。 ” 在E级超算的问题上,联想超算发挥了自己的“联想”,把ExaScale (E级计算) 建构成EveryScale (各种规模计算) 的集合——这是另一种意义上的融合,以高可扩展的计算,突破E级计算的障碍,同时保证不同规模的用户都能从中受益。 联想希望把ExaScale建构成EveryScale 当然,要实现这一点,还需要突破更多的创新,来解决供电、冷却、文件系统、存储、互连、加速等方方面面的难题。联想数据中心业务集团全球高性能计算技术高级总监Scott Tease说,联想超算在这些问题面前,不仅组建了完整的专家团队,还将与上下游的优秀客户及合作伙伴合作,共同设计未来。 也许,这也是联想超算“融合计算”的重要勾画之一。
个人分类: 科技杂谈|4587 次阅读|0 个评论
国内超算情况
richor 2018-10-24 15:21
全球第一: Summit ( 2018 年, 18.77亿 亿次,187P)美国能源部橡树岭国家实验室,田纳西州。 全球第二: 太湖之光( 2016 年, 10 亿亿次) 现在我国的超算主要有三大系列,曙光,大家对他的第一次认知可能是在中小学的思想政治课本里,是曙光公司制作的。天河系列,主要是国防科技大学等高等院校制作的。再有一个就是这次出现在公众视野里的 总参五十六所 ,江南计算研究所(俗称江南所),是目前解放军最大的计算机技术研究所。 http://blog.askfermi.me/2016/06/26/taihu-light/ 江南所是有军方背景的,所以他们研制的超算也 主要应用于 核爆模拟等 军方 的领域。 广州超算: 天河二号( 2013 年, 3.39亿 亿次) cenos 6.5 登陆节点 cpu : E5-4640 2.4GHz , 8 核 16 线程。 每个节点 4 块 cpu 共享 128G 内存,共 32 核 64 线程。 计算节点 cpu : Xeon(R) CPU E5-2692 v2 @ 2.20GHz (未启用超线程, siblings=cores ) 该博文总结的很详细: https://tlanyan.me/tianhe-ii-guide/ Lustre filesystem 可以使用 lsf 查询 quota 。 https://wenku.baidu.com/view/198c4b7549649b6648d747aa.html 但其实登录的时候就显示了 quota. 基于 Intel 编译器的 mpi 版本 安装目录在 /usr/loca/mpi3 下,为了追求最高效率,该目录下的 mpi 为自主实现的 mpi 版本,底层用 Intel 编译器编译。 mpi 会自动调用 gcc. 北京超算: 2014 年之前是 DeepComp7000 (深腾 7000 ),联想公司的。 甚至都在魔方的排名之下: https://wenku.baidu.com/view/10eeecb6284ac850ad024244.html 现在是“元”超级计算机:在怀柔。(sugon曙光公司的) centos 6.4 cpu: E5-2680 v2 登录节点: 10 核超线程未开启, 2 块 cpu 。 64G 内存。(为什么会更快?vs 上海超算的2680 v3? 或许是2.5GHz vs 2.8GHz吧。) pbs 调度系统 openlava 。 icc, mpicc 默认不加载,需要自己写到 .bashrc 里。 目前 .bashrc 里写的是 icc 2013. mpi/impi/4.1.3.049 gcc 4.4.7 都是手册里默认的。 上海超算中心: 上海市政府投资,国内首家面向社会开放的、资源可共享的高端计算平台。 曙光 1 号, 1993 年,中科院科学进步特等奖。中科院计算所李国杰院士带队。 每秒浮点运算次数(英语: Floating-point operations per second ;缩写: FLOPS ): 曙光 1 号达到了 6.4 亿。 第二代曙光并行机 - 曙光 1000 ( 1995 年, 25 亿)、第三代曙光并行机 - 曙光 2000 ( 1998 年, 200 亿),曙光 3000 ( 2000 年, 4032 亿次),曙光 4000 系统( 2004 年, 10 万亿次)。 曙光 5000A ( 2009 年,百万亿次),曙光自主开发了 Grid View 集群管理管理系统。又名“魔方”,落户上海。 https://wenku.baidu.com/view/4498e177a417866fb84a8ebd.html?rec_flag=defaultsxts=1539920790786 组里用的是 魔方 2 , 也就是曙光 TC4600 。 老魔方 已经基本退役了。 使用手册: 上海超算使用方法.pptx 中科曙光公司为中科院院属企业。 高性能计算机研究中心负责研制,中科曙光负责推广销售以及服务等。 centos 6.6 ( 比天河二号更新 ) 登录节点: E5-2640 v3 未开启超线程 , 2 路 cpu ,共 16 核。 64G 内存。 计算节点: E5-2680 v3 也未开启超线程, 2 路 cpu ,真 24 核。 128G 内存。其他一样。 tcb 组里: cpu: Intel Xeon E5-2620 6 核 12 线程, 2 块,共 12 核 24 线程。 内存 32G 。 ---- 作业调度方式大概有: OpenPBS, Platform LSF( 不开源, openlava 基于此 ),SLURM (天河) ,TORQUE ( OpenPBS 的开源版本 ) , SGE ( tcb ) https://www.zhihu.com/question/52700019 曙光的管理员端任务调度系统做了一个可视化客户端 Gridview ,舍难取易,还搏了自主研发的名。 torque 版本查询 :pbs-config --version 曙光的核心就是 torque 。pbs脚本详解: https://wenku.baidu.com/view/338e1083852458fb760b5622.html 魔方2: cat /opt/gridview/pbs/dispatcher/server_name mgmt34 与torque一致
个人分类: 计算机|2 次阅读|0 个评论
上海超算
richor 2018-9-7 09:03
上海超算上gromacs-4.5.4版本的grompp有时候会在生成*.tpr文件的时候说, ThisrunwillgenerateroughlyxxMbofdata xx is a very large number. 这时候,考虑 在本地生成。 上海超算可能有问题。not very sure.
个人分类: 个人|1 次阅读|0 个评论
[转载]美国提出支持人工智能的超算
ciccasduanhq 2018-6-10 10:09
“ Summit ”超级计算机由IBM与英伟达合作开发,其峰值计算能力可以达到每秒 20 亿亿次, 超神威·太湖之光的60%, 是全球 第一台既支持传统计算,也支持运行人工智能应用程序的超级计算机,机器学习和神经网络等运算都可以在 “ Summit ” 上实现。 如无意外, “ Summit ” 将在本月底公布的Top 500榜单中名列第一,让美国重夺“世界上最强大超算”桂冠。 目前, Summit 已经在美国橡树岭国家实验室运行, 美国科学家正在利用 进行高效的超大规模比较基因组计算。
个人分类: 杂谈|1294 次阅读|0 个评论
聚变之光显神威!
热度 4 等离子体科学 2017-11-16 11:01
全球超算 TOP 500 List 又出来了:神威-太湖之光再次荣登榜首,天河 II 屈居第二。 说两个听来的事儿: 话说前年有一次评审,一个项目上去汇报研究成果,讲如何使用 超算,很得意地说:我们用了几千个核。下面人偷笑:这里坐的可都是用上千万个核算题的! 去年在一个群里,说起从天河 I 开始,中国的超级计算机已经多年占据 全球超算 TOP 500 榜首了。一位接茬:有什么用,还不是都闲着!另一位接上:那你帮我插个队?我排了好久都没排上! ———— 中国的超算发展太快,身在其中的人都跟不上,别说外边的 记得当年天河 I 刚刚出来,要展示一下全球第一的风采,找到我们团队的林老师,用他在美国发展的 code 试一下(美国的超算也用这个 code 试)。结果确实比在美国最快的机子跑得快。当时 林老师给了一张图,一时找不到。以后找来放上。 神威-太湖之光横空出世,也要展示一下风采,这次是找了几个国内的 code 跑。其中一个是科大秦老师的团队,当中几个主力是从我们团队出去的。用的是这个 code: Accurate Particle Tracer . 算的是聚变实验堆产生的逃逸电子的长时间行为。需要误差小,计算快,正适合 神威-太湖之光这样的超算 —— 一上来就用上千万的核并行。 给几张图: 这是部分结果。 这是神威-太湖之光的宣传版(选了几个能展示超算“ 神威 ”的工作,这个是秦老师团队的工作) 神威——太湖之光 算出来相对论的逃逸电子是如何运动的——这么快的电子,加速运动会发出辐射——聚变之光! 厉害了,我们的神威! 希望科大的这个团队再接再厉,再展神威!
个人分类: 学海无涯|15730 次阅读|7 个评论
超算真能创造出超人吗!
热度 1 dsm9393 2016-8-13 20:25
超算真能创造出超人吗! 都世民 今日中国中央电视台 2 频道重播超算专题节目。笔者看后有些想法: 1. 主讲人王恩东院士,主题“超算可以创造超人”。 2. 首先以机器狗胜围棋冠军开场,后来又说了十年前机器胜象棋高手。这些是事实。但如何理解这一事实是有争议的。从讲解人的主要论点:超级计算机与人对决显示快、准、狠。杀人不见血。这是基夲结论。虽然主讲人没有明确说机器人超过人,实际上展示的是这一结果。 3. 后来一位生物学家以基因为主题阐述超级计算机在基因分析中的应用,以天书表示人的遗传密码, 30 亿字母象征基因排序,要从这个天书中找错,不依靠超级计算机是无能为力的事。专家以乔布斯为例,对其进行全基因测试,分析甚癌症病因,找对症的药物。使其寿命延长 7 年,最终离世。这一切说明超算是具有超人能力:大数据量、快速、计算精度高。 4. 另一位专家以海洋是中心,阐述对日本福岛核泄漏的预测,利用超算预测其结果基本准确。后来又说了马航飞机失事寻找残存碎片,也需要超算。 5. 主持人对上述三项内容搞了一个现场投票,三项共 100 %,结果基因应用超算占 40 以上,海洋应用占 10 几至 20 %多。 6. 中央电视台新展示的科技节目具有可看性,对提高全民素质有好处,值得称赞。 7. 笔者看后的感想是: 1 )主题的提法是否可以理解为超级计算机可以使机器超过人;也可以理解为超级计算机可以让人更聪明,通过脑研究,找到脑开发途径,培养出真正的超人,不是机器。 2 )基因决定论和寻找遗传密码,以及改变基因治疗先天性疾病都有很好成效。但是基因排序是否能治好这个地球上三万种疾病,这个问题没有结论。 3 )主讲人突出超算却很少 , 提到建模和计算方法,笔者不知讲解人为什么不重点阐述建模和计算方法是超算能获得准确和狠的结果。否则超级计算机只具有计算速度快、处理大数据量的优点。其中只有一位专家提到基础研究应该重视。 4 )就治病而言,基因排序和遗传密码问题真的能解决所有病痛吗?我看不能。现在研究长生不老、衰老细胞、基因开关、大脑开关、癌症开关的报道较多,能从超算中找到答案吗? 5 )如今有的专家将人工智能作为人脑多层面链接的工具,以神经回路为主体,提出类脑概念。如果人脑的运行机制是人工智能,我看这人工两字可以去掉了。机器智能就成立了。有什么证据能证明人脑多层面链接是人工智能的工作机理。这种假想的链接方式可取吗?! 6 )普及超算方向对头,让更多专家通过基础建模,开发新算法,破解当今前沿课题。千万不要以为超算是神,神奇是机器创造的。创造奇迹的是建模的专家们,是人类自己,不是机器。
个人分类: 博客|2299 次阅读|2 个评论
“太湖之光”获吉尼斯纪录认证,瞬间感觉逼格低了
热度 8 bonjourgl 2016-7-21 12:33
本文根据独家专访中科院计算所所长孙凝晖先生所作,如有转载等事宜,请在后台留言知悉。 阅读 微信版请移步: “太湖之光”获吉尼斯纪录认证,瞬间感觉逼格低了 还记得“神威·太湖之光”吧?自从6月折桂全球超算TOP500之后,各路的叫好声不断。这不, 吉尼斯世界纪录又来锦上添花 了。 7月15日,吉尼斯世界纪录大中华区总裁罗文在北京向国家超级计算机无锡中心主任杨广文颁发吉尼斯世界纪录认证书,宣布中国自主研制的超级计算机“神威·太湖之光”是“运算速度最快的计算机”。 “神威·太湖之光”获得吉尼斯认证这事儿,感觉逼格瞬间低了很多。想想这两年吉尼斯那些玩应,什么世界最大份炒饭 (已被取缔) 、巨无霸月饼、某鹿姓明星个唱1700多人同时戴鹿角 (啊会不会被喷) …… 要不要搞个墙国买不起房人数的吉尼斯世界纪录? 众所周知,全球超算TOP500榜单发布后,中国在两个重要排名上均取得领先,一个是“神威·太湖之光”运算速度世界第一,另一个是中国以167台HPC的上榜数量首次超过美国。然而,这段时间以来,人们好像更关注前面那个“第1”,对后面的“167”不太关心。 中科院计算所所长孙凝晖跟笔者说, “167台套”是和“自主研制世界最快超级计算机”一样了不起的成就 。 “1”是什么?它就像刘翔在110米跨栏上的“亚洲骄傲”,尽管世上无出其右,但他只代表110米跨栏这么一个 领域 。 “167”是什么?它代表的内涵显然更丰富,就像奥运会上中国以167块奖牌取得的 全面 胜利一样 (我瞎诌的,中国军团最多的一次是08年的100块吧) ,这才真正彰显在竞赛中的实力。 回到HPC,从应用的角度, “第1”和“167台套”则分别 对应着“领域型”和“通用型”两种高性能计算机。 领域型和通用型高性能计算机,就好比战斗机和民航客机的区别。 领域型高性能计算机势必要牺牲HPC应用的普适性。 孙凝晖指出, 通用型高性能计算机的背后是应用需求驱动。“互联网+”、大数据战略、云计算、“中国制造2025”,这些热词都需要通用型高性能计算机的贡献。 正在经济转型发展期的中国,通用型高性能计算机的大发展应用势在必行。 然而,量大面广的通用型高性能计算机的研发难度一点也不小。反观 在市场上有竞争力的通用型高性能计算机,我们反而还很少 。 在运算速度最快的计算机方面,美国相比我国,既不缺钱也不缺技术,为什么5年来一直没有做?同时,美国在通用高性能计算机方面,却一直保持着遥遥领先的地位。这说明, 通用型高性能计算机更能代表一国超算的真正实力 。 类似“天河二号”“太湖之光”的超级系统为国争光固然是好事,但仅靠这些还不足以代表我们国家在信息产业核心技术上的水平。 【任何一种技术都有3个发展阶段:打破封锁、打破垄断和引领创新。在高性能计算领域,我们用了15年成功打破了封锁,又用了15年打破了国外HPC对我国内市场的垄断,还要再干15年,做真正引领创新的工作。】 孙凝晖认为,我国高性能计算机发展的下一步,就是要再花15年发展自己的通用高性能处理器和通用高性能计算机,把“引领创新”这件事干成。 【我们不要在10年或者15年后,再让美国封锁我们的技术、垄断我们的市场。】 ………………………………END……………………………… 无干货,不分享 本来科技 一个不玩花架子的 科技公众号 欢迎关注(OK_tech)
个人分类: 科技杂谈|9469 次阅读|12 个评论
E级超算华山论剑,中国能否站上超算之巅
热度 4 bonjourgl 2016-7-17 18:10
在微信上阅读此文章,请戳: E级超算华山论剑,中国能否站上超算之巅 寒冬岁尽,华山绝顶,大雪封山。 「东邪」黄药师、「西毒」欧阳锋、「南帝」段智兴、「北丐」洪七公、「中神通」王重阳五大顶尖高手在华山顶上“ 口中谈论,手上比武 ”,斗了七天七夜, 最终王重阳击败四人获胜,夺得 《九阴真经》。这便是江湖人口口相传的 华山论剑 。 如今,国际超算界 也正在上演 一段 华山论剑 故事。自 “ 新科”全球最快超级计算机“神威·太湖之光”亮相 之后, 国际超算界开始将目光聚集在超算的下一个里程碑——E级超级计算机。比“太湖之光”峰值还要高一个数量级的E级超算,是 超算界 公认的 “下一顶皇冠”。 01 各国的“ E级计划 ” 作为一个国家综合国力和科技创新能力的重要标志,E级高性能计算机已成为当前各国竞相角逐的战略制高点。美国、欧洲、日本等国都提出了自己的E级超算研发计划,中国也将百亿亿次超级计算机(技术)的研究写入了国家“十三五”规划中。 美国 : 自“天河二号”于2013年11月正式登顶当时的超算TOP500榜首之后,美国这个头号超算强国 已连续3年未曾染指这一宝座 。然而,种种迹象表明,美国从未在“最快超算梯队”上掉队。 在给笔者的邮件回复中, 全球超算TOP500排行榜发起人、橡树岭国家实验室及田纳西大学教授Jack Dongarra 透露, 美国能源部 ( DOE)通过 国家战略计算计划(NSCI) 以及与产业界和学术界的合作,正在推行能进行百亿亿次计算系统的开发。“该系统集成了硬件和软件能力,在一系列代表政府需求的应用中的表现将是目前10千万亿次系统的100倍。” 欧洲、 日本 : 欧洲、日本也制定了自己的E级超算研发计划,并将相应计划的完成时间表设定在了2020年。 被誉为“HPC网红 ”的 中科院计算所研究员、中国计算机学会高性能计算专委会秘书长 张云泉 告诉笔者, 欧盟 希望在2020年左右实现E级超算,可能将由Bull公司实现这个计划; 日本 也是在预计2020年实现E级超算计划,可能将由日立或富士通来实现这个计划。 中国 :E级超算是“十三五”规划中的重头戏之一,那么实现的时间表也应该是“十三五”收官(2020年)的时间左右。 值得一提的是, 在最新公布的国家“十三五”高性能计算专项课题中可以看到,我国公示出了3个分别由 中科曙光 、 国防科技大学 以及 江南计算技术研究所 牵头的E级超算的原型系统研制项目,出现了“三足鼎立”的中国超算在E级超算研发上“三头并进”的局面 (后文将对此进行解读) 。 出人意料地,在几个制定了相关计划的国家中,只有 美国 相对“悲观”,他们预计百亿亿次超级计算机的建成要等到2022年。据分析, 美国此举或许并非故弄玄虚,因为随着高性能计算机运算规模的增加,建造它的 难度将是几何倍数的提升 。 02 不轻松的“ E级挑战 ” 百亿亿次超级计算机的建造难度并不仅仅在于速度的提升上,更在于对大规模超算设备的功耗要求。张云泉告诉笔者,按照国际公认标准,E级超算的功耗应低于20MW。按照这一功耗目标要求, 未来的E级超级计算机的能效比要达到50 GFlops/W 。 这是一堵难以逾越的高墙。毕竟排在Green500第三位、创造了大规模高性能计算机效能比的最好成绩的 “太湖之光”每瓦性能只有6 GFlops ,相差一个数量级。 “功耗墙很难逾越,是各国都在面临的难题。” 张云泉说:“现在大家希望采用异构加速或异构综合的方来降低功耗的要求,但由此带来的是编程的困难。因此,可以说研发E级超算实际上面临着 编程墙、功耗墙、可靠性墙和存储墙几个‘大墙’的围堵 ,如何越过这几堵墙,面临很大的挑战。” Jack Dongarra 对建造E级超算的难度也有充分的估计,他告诉笔者,在准备为超算设备升级之时,软件和应用方面的准备工作要做在前面,以确保E级超算这种“新物种”能够第一时间给科学和产业界带来益处。关于建造超算面临的挑战,他给笔者列出一个 “没有特定顺序”的 “TOP10挑战名单”。现附下,请超算科学家们共商: 1. Creating more energy-efficient circuit,power, and cooling technologies. 2. Increasing the performance and energyefficiency of data movement. 3. Integrating advanced memory technologiesto improve both capacity and bandwidth. 4. Developing scalable system software thatis power- and resilience aware. 5. Inventing new programming environmentsthat express massive parallelism, data locality, and resilience 6. Creating data management software thatcan handle the volume, velocity and diversity of data that is anticipated. 7. Reformulating science problems andredesigning, or reinventing, their solution algorithms for exascale systems. 8.Facilitating mathematical optimizationand uncertainty quantification for exascale discovery, design, and decisionmaking. 9. Ensuring correct scientific computationin face of faults, reproducibility, and algorithm verification challenges. 10. Increasing the productivity ofcomputational scientists with new software engineering tools and environments. 03 激动人心的“ E级应用 ” 人们不遗余力地向E级超算发起挑战,正是对其潜在的巨大作用有着热切的预期。对此, Jack Dongarra 的描述激动人心: “每秒执行百亿亿次计算,这可是我们今天所见机器计算速度的数十上百倍,这些未来的计算机将是一个全新的‘物种’。它们的惊人之处不仅在于更快,更在于可以以全新的方式处理大数据。所以E级超算未来将非常有用,比如 攻克癌症 。” “为了找到治疗癌症的方法,我们需要找出以前没有见过的模式。在癌症治疗方面,人们面临的挑战不是缺乏相关数据,而是如何“正确打开”这些数据,并找到合理的模式处理它,从而告诉人们到底是什么原因导致癌症或者如何更有效地对抗它。 超级计算机是用于分析基因组和相关分子数据集、患者记录、家族史和与癌症相关的其他复杂信息的优良工具。 随着超级计算机的发展,我相信我们可以找到答案。” 当然,E级超算能派上用场的还不止这些,用到它的地方五花八门: 模拟人的心脏, 调查各种药物对心脏的影响; 分析海洋, 了解海洋以弄清如何应对气候变化; 创建新材料, 探索如何消除新材料的摩擦力; 维护世界安全, 建模核爆炸以免除实际测试的需要; 模拟宇宙, 以3D仿真的手法探索我们浩瀚的宇宙 …… 张云泉也表示E级超算在上述领域的巨大应用潜力,但他同时指出,摸清E级超算未来应用是当务之急,这与建设E级超算同等重要。 “我们需要马上补足对E级应用需求的分析,对E级应用软件的支持和支撑,以及相关生态系统,特别是软件生态系统的建立,特别是 要论证清楚我们国家为什么要发展E级超级计算机 , E级超级计算机在我们国家有什么用处 ,这样的问题一定要回答清楚,这样我们E级超算的发展才有用处。” 04 中国能否登顶“ 超算之巅 ” 看到了发展E级超算面临的种种挑战,了解了E级超算潜在的种种应用,特别是考虑到“十三五”对E级超算的目标规划,问题来了:中国能否在E级计算时代登顶“超算之巅”? 前文提及,我国E级超算研发出现了“三头并进”的局面。 中科曙光 、 国防科技大学 以及 江南计算技术研究所 各自牵头了 国家“十三五”高性能计算专项课题 的 E级超算的原型系统研制项目 。这三家单位在超算领域的技术实力已经毋庸赘言,我国出现在全球超算TOP500榜单前十的超算设备均出自这三家之手,形成了中国超算“ 三足鼎立 ”的局面。 值得注意的是,这三家单位目前拿到的是“ E级超算的原型系统研制项目 ”,也就是说,是在E级超算项目正式进入日程之前的预研工作。古人云:预则立,不预则废。原型系统的研制正是出于此意。 “原型系统可以验证一些关键的技术设想,对一些关键技术难点进行测试和改进,为最后建造全部的系统扫清障碍,避免出现大的技术错误和难题。”张云泉说,尽管原型系统不可能暴露所有的问题,但类似的预研项目非常必要。 据消息人士透露,中科曙光牵头的E即超算原型系统研制项目将于近期举行的曙光技术创新大会(IDIC2016)上正式启动。 我国在E级超算研制方面采取的是竞争体制,预计两年之后会对3家单位进行评估,最后采取最好的方案来整合成最后国家的E级超算研发体系。到那时, “三家单位将有可能会 产生交集或者合作 ”。 后语 在“太湖之光”以自主芯片和操作系统将HPC的计算速度刷新十亿亿次之后,中国看到了自主研发E级超算的曙光。张云泉认为,“太湖之光”的成功已经为我国向E级超算迈进打下了一个坚实的基础,只要做好人才、资源、经费和材料的储备,冲击E级超算指日可待。
个人分类: 科技杂谈|6359 次阅读|6 个评论
“神威太湖之光”成为全球最快超级计算机
热度 1 sheep021 2016-6-21 09:57
“ 神威太湖之光 ”成为全球最快超级计算机 6月20日,新一期全球超级计算机500强榜单公布,使用中国自主芯片制造的“神威太湖之光”取代“天河二号”登上榜首,中国超算上榜总数量也有史以来首次超过美国名列第一。据国际TOP500组织当天发布的榜单,“神威太湖之光”的浮点运算速度为每秒9.3亿亿次,不仅速度比第二名“天河二号”快出近两倍,其效率也提高3倍。更重要的是,与“天河二号”使用英特尔芯片不一样,“神威太湖之光”使用的是中国自主知识产权的芯片。“神威太湖之光”由国家并行计算机工程技术研究中心研制,安装在国家超级计算无锡中心。此前,由中国国防科技大学研制的“天河二号”超级计算机已在TOP500榜单上连续六度称雄。 更威猛的是,在第47届超级计算500强排行榜上,中国不但在速度上蝉联冠亚军甩开美国,在进入500强的数量上也超越了美国,中国有167台如500强,占世界三分之一强,美国则以165台居世界第二,这是中国历史上首次在超级计算机数量上超过美国。 铁流:逆袭之光 玻璃房子的耻辱 在中国丧失独立自主研发制造计算机的能力后,美国政府严格限制对中国出口高性能计算机。 当时,高性能计算机的应用涉及的基本是堪称国家“命脉”的领域,如国防军工、油气勘探、水电利用等。 由于中国当时还没有自主研发的高性能计算机,所需要的计算机只能依靠进口,价格昂贵,维修管理困难。在1994年,中国进口计算机就花掉近20亿美元,维护费用动辄千万。 有专家表示,原石油工业部物探局曾花费巨资购买了一台国外的大型机,在后期集成与维护的费用上对方公司竟开出百亿以上的天价。 不仅如此,对方还提出了一个让中国IT人铭记了十几年的屈辱条件—— 在设备使用过程中,为防止机器核心技术外泄,设备机房采用全透明的玻璃墙壁,中国使用人员的一举一动都在外国人的时刻监控下,甚至连高性能计算机的启动密码和机房钥匙都要由外国人控制!
个人分类: 生活点滴|841 次阅读|3 个评论
神威太湖之光超算靠谱
热度 17 outcrop 2016-6-21 09:27
神威太湖之光超越天河二号荣登超算top500榜首: http://www.top500.org/news/new-chinese-supercomputer-named-worlds-fastest-system-on-latest-top500-list/ 和天河二号最大的不同就是,神威超算用的是基本完全自主的CPU——申威众核处理器。申威系列的处理器源于江南计算所,虽然其源头是DEC 的Alpha处理器,但当年是花钱买了下来消化并做了改进;申威大概也是当年强悍的Alpha构架中硕果仅存的后裔了吧。 这么一来中国在超算领域基本绕开了美国对超算芯片的禁运,江南所的这条路走的也比较漂亮,值得国内科研及工业领域参考。关于神威太湖之光更详细的测评报告见附件或下面网址: http://www.netlib.org/utk/people/JackDongarra/PAPERS/sunway-report-2016.pdf sunway-report-2016.pdf
个人分类: 计算机应用技术|20097 次阅读|55 个评论
使用Matlab MDCS在计算机集群上做并行计算
SilentStorm 2016-1-6 19:28
因为要做大量仿真运算,辗转找到了可以使用的集群。好好研究了如何使用matlab MDCS在集群上做并行运算。现在把过程记录下来,以备将来再用。 我使用的是南安普顿大学的iridis4集群。 此集群使用PBS任务管理系统。 首先需要连接至南安普顿大学的vpn:vpn.soton.ac.uk; 其次使用ssh登录 username@iridis4_c.soton.ac.uk; 1. 找到合适的并行运算模式:这一步可以通过分析自己的代码以及阅读matlab中MDCS的文档找到适用于自己代码的并行运算模式。我的情况是做蒙特卡洛仿真,即数据密集型计算,且循环的每一次运行相互之间是独立的,即前后之间无关。在研究了batch等命令之后,发现batch是我需要的命令。batch可以根据clusterprofile申请资源,clusterprofile中规定了所需要的节点数,每个节点中包含的cpu个数,内存大小,以及预计运行时间。 2. clusterprofile可以在服务器端的matlab的菜单-Parallel-Manage Cluster Profile中定义。先通过import在/local/software/matlab/2014b/extern/examples/MDCS/ 下面的Iridis4_1node,再基于此profile修改并保存为自己需要的profile。注意不可以直接用local(default)那个profile,因为直接用local相当于在服务器的登录节点并行运算. 下面假定我自己定义的profile为 Iridis4_1node_8h 3.使用batch申请一个节点,并使用其16个cpu进行运算: 在m文件中输入: cluster1 = parcluster('Iridis4_1node_8h'); job = batch(cluster1,@ARsplitRunParforTriFreq,1,{ep,num,N},'Pool',15); 其中 ARsplitRunParforTriFreq.m为需要并行运算的函数,里面包含parfor语句。 1是 ARsplitRunParforTriFreq函数的输出参数个数, {ep,num,N}为 ARsplitRunParforTriFreq函数的输入参数。 ‘Pool’,15表示除了一个 master matlab之外,还有15个slave matlab要运行,总共是16个cpu。 ARsplitRunParforTriFreq.m文件内容为: function outsolution= ARsplitRunParforTriFreq(ep,num,N) parfor i=1:N blah blah blah end return 4. 再通过for循环批量提交batch作业,申请多个节点 5. parfor 命令进行并行循环,请参见matlab帮助。 注意事项: job = batch(cluster1,@ARsplitRunParforTriFreq,1,{ep,num,N},'Pool',15); 此语句中的 1表示的是函数 ARsplitRunParforTriFreq的输出参数个数,不是输入参数个数。如果搞错了的话,matlab虽然会申请到16个cpu运算,但是进不去 ARsplitRunParforTriFreq函数。表现出来的现象是:16个matlab进程 会同时闪退,而且不输出任何东西。妈的,调了3天才找到这个错误。。。
个人分类: 计算机|8584 次阅读|1 个评论
超算芯片禁运,无力反抗
热度 47 outcrop 2015-4-13 09:11
计算机芯片一直是我们国家的软肋,这次也不例外:美国商务部对中国超级计算机中心禁运至强芯片,我们还是无力反抗。被禁运的4家机构分别是国家超级计算长沙中心、国家超级计算广州中心、国家超级计算天津中心和国防科技大学,它们被美国列入“坚持违背美国国家安全或者外交利益的实体名单”。 这次禁运可能只是针对超级计算机名声的一次打击;因为至强芯片也运行在民用服务器上,非要做超级计算机来用,即使天河二号的几万 颗 至强CPU可能还是有其他渠道能搞定——但不能去超级算机排行榜打榜了。 国产CPU一直遮遮掩掩的不能产业化、大众化,原因很明显,但绝不容易解决:中国精尖的制造加工技术很有限——设备、工艺、材料等等系统性落后——这是一个需要实干、积累和高投入的领域,不是靠几篇论文和买点装备就能解决问题。 延伸阅读: 美国禁止向中国超级计算机出售芯片 =============================== =============================== 科学网博友交流QQ群(非官方):115359850,欢迎加入!加入请注明:科学网博友
个人分类: 计算机应用技术|24122 次阅读|131 个评论
MS在超算提交准备
plgongcat 2014-9-27 14:28
MS在超算提交准备: windows操作 1. 在MS中建立好结构,并在计算窗口中不要run,而是点击file; 2. MS中的文件有很多是隐藏的,所以需要打开工具/文件夹选项/查看/显示隐藏文件、显示扩展名; 3. 进入MS中相应project中document,找到重要文件:*cell,*xsd,*param 4. C:\Program Files\Accelrys\Materials Studio 6.0\share\Resources\Quantum\Castep\Potentials\ 找到所需要的赝势; unix中提交作业脚本 1.castep.pbs castep.pbs 提交作业: 将上述*cell,*xsd,*param,赝势,以及castep.pbs放在同一目录下面,而后qsub castep.pbs
个人分类: 软件学习|5917 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-12 16:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部