SC15 | 比TOP500总和还快1倍多 百亿亿次超级计算机何时达成?
[ 发布日期:2016-3-28 来源:猫头鹰互动科技 浏览次数:2875 ]
自2008年全球首台千万亿次超级计算机问世后,业界就开始展望百亿亿次超级计算机,百亿亿次超算也随即成为当今各类HPC行业大会的热点话题,同时也更成为各国超算的竞争目标。在刚刚结束的SC15中,NVIDIA对百亿亿次超级计算做了新的展望,并预计这一目标有望于2023年达成。
百亿亿次超级计算机有多快?它比美国最快的超级计算机泰坦(Titan)还快50倍,比最新一期TOP500中所有超级计算机的运算能力之和(约420 PFLOPS)还快1倍多。
百亿亿次超级计算机的关键:降低功耗
打造更快的超级计算机绝不仅仅是增加更多处理器那么简单,其根本难题是实现更高性能的同时必须最大限度降低能耗。这一点十分关键,因为如果我们现在就去打造百亿亿次级超级计算机,其功耗恐怕大到每年至少要交十几亿元人民币的电费,完全没有实际意义。
距离百亿亿次超算的节能性要求有多远?
只有不断提升超级计算机的每瓦性能,才能确保在提升性能的同时不显著增加功耗。当前美国泰坦(Titan)的每瓦性能在2 GFLOPS的水平上,而百亿亿次超级计算机的每瓦性能必须至少达到它的25倍,也就是每瓦50 GFLOPS。
美国能源部“珊瑚(CORAL)”计划中定于2017年建成的两台超级计算机高峰(Summit)和峰峦(Sierra),计算性能将达到150~300 PFLOPS,其每瓦性能也将来到14~27 GFLOPS,进一步逼近百亿亿次超算所需要的水平。
随着摩尔定律的放缓,加速计算是继续提升每瓦性能的关键。最近几期TOP500和Green500榜单也显示了这样的趋势,而在这其中,GPU加速器无疑起着主导作用。包括泰坦以及欧洲最快的系统瑞士Piz Daint都是基于GPU加速器打造的,高峰和峰峦也同样如此。
性能不断提升,传输带宽也要跟上
随着制程的不断升级,我们可以在同样大小的GPU芯片中放入更多处理单元,以实现更高的计算性能。但要想充分利用如此高的性能,CPU和GPU之间,以及GPU和GPU之间都需要更高的数据带宽,现有PCIe总线将无法满足这一需求。为此,必须要引入一些新技术来提供超高速的数据通道,比如NVIDIA研发的NVLink。
相比PCIe,NVLink可以提供5~12倍的传输带宽,这将大幅提高数据在CPU内存、GPU显存之间的移动速度,最终大幅提高加速软件应用的性能。根据测试,使用NVLink技术,现有的主流高性能计算应用,将获得最高2倍的性能提升。
代码要适应多种硬件架构,移植性成关键
除了硬件结构外,实现百亿亿次系统的另一大难题在于如何确保科学应用代码能够在多种处理器架构上都能有效地使用计算资源,比如x86处理器、POWER处理器以及ARM处理器这种更高效的处理器架构等。
橡树岭国家实验室项目总监Buddy Bland曾表示:"采用突破性硬件技术需要付出许多代价,将HPC应用从一个平台移植到另一个平台就是其中最重大的代价之一。”这就要求现有的代码能够具备延续性和代码移植性,以便可以在不同的硬件架构上进行移植,而OpenACC将在其中发挥重要作用。
OpenACC:一次编程,多平台运行
OpenACC是一项并行编程标准,开发人员可通过PGI编译器对现有的代码进行编译,仅需少量代码修改,在无需懂得太多并行计算知识的情况下就可利用GPU强大的加速性能。
目前,PGI的编译器已新增针对x86多核CPU的OpenACC支持,并且在未来两年还有望支持POWER处理器和ARM处理器以及更多加速器。这意味着,开发人员仅需要一次编程工作,凭借单一版本的代码就可开发出充分利用多种系统架构的应用,实现完美的延续性和代码移植性。
百亿亿次超级计算机能做些什么?
70年代PC刚刚诞生时,人们都想不到能拿它来做什么。但百亿亿次超级计算机不会遇到这个问题,因为科学家们已经开始构思了。例如,欧洲委员会的人脑项目希望利用百亿亿次计算机来更好地理解人类思维的运作方式;白宫自己的精确医疗计划也打算利用超级计算机来加速个性化医疗的进展。除此之外,百亿亿次超级计算机还能帮助缓解气候变化的效应,以及增进我们对宇宙起源的了解。
就超级计算而言,激动人心的时代正在前方等待着我们。而利用GPU打造的超级计算机,可以在实现更高性能的同时,最大限度地降低能耗。
www.nvidia.cn www.leadtek.com www.autodesk.com.cn www.adobe.com.cn