从全球头号GPU超级计算机获取经验 打造更快更稳定更节能的系统
[ 发布日期:2016-3-28 来源:猫头鹰互动科技 浏览次数:2736 ]
当一台头号超级计算机失去王者头衔的时候,全世界通常不会再注意它,即便这些计算机依然由于架构、功率、应用或其它特性等原因卓尔不群。
虽然它在跻身榜单、夺得桂冠的时候曾备受关注,但是人们对这一计算机的关注会越来越少,尤其是在中国的大型天河二号系统问世之后。然而,有一点不那么引人瞩目但是却更加重要,那就是事实证明,在美国能源部下一波定于2017~2018年完工的超级计算机问世之前,它依然可供人们汲取宝贵的经验教训。
当泰坦(Titan)计算机问鼎TOP 500超级计算机榜单的时候,它是首批在单一计算机中运用这么多GPU的系统之一。事实上,单一计算机中的GPU数量太多了,以致于当时有人表示担忧,他们担忧采用18,000多颗GPU的做法有可能导致普遍失败,而且更糟糕的是,这是浪费金钱,因为能够利用这么多加速性能的代码会很少。
泰坦拥有超高的稳定性和利用率
橡树岭领先计算机构项目总监Buddy Bland指出:随着泰坦计算机的运行进入第三年,这些最初的担忧被证明是杞人忧天。
虽然让所有代码都利用GPU并不现实,但是让50%的代码利用GPU是切实可行的。加上应用准备中心所做的工作,这一数字还在不断增长,而且会促使人们不断努力为即将问世的高峰(Summit)超级计算机准备新一代代码。高峰超级计算机定于2018年在橡树岭国家实验室问世。
据Bland称,事实证明,即便是把泰坦所有的GPU都算在内,泰坦的稳定性也胜过纯CPU系统美洲虎(Jaguar)。美洲虎系统是泰坦的前身。在配备GPU之后,该系统远比我们预想的更加稳定。当我们开发这一计算机时,我们听到了各种耸人听闻的故事,例如计算机崩溃以及无法长时间运行。我们携手克雷公司和NVIDIA公司不懈地开展工作,以期为硬件带来一些改变,以提升稳定性。有些改变是在最后一刻实现的。
此外,Bland表示,为泰坦这样的计算机(或任何大规模科学计算资源)确定投资回报率是很难的,尽管美国能源部橡树岭国家实验室的团队赞助商对多年以来该计算机的一贯表现非常满意。
利用率接近100%,而且总是有积压的任务。Bland表示:在能源部报告中,他们将利用率描述为90%,因为经常有大型任务占据计算机的一大部分,而较小的任务则被阻挡在外。
泰坦拥有惊人的节能性
除了更高的稳定性和更高的利用率外,泰坦的节能性也一直十分惊人。
Bland解释道,我们预计,即便采用的是相同数量的节点、相同的机柜以及散热系统,它也会比美洲虎的功耗更高,因为我们所做的一切仅仅是更换这些卡以及内部互联网络而已。在美洲虎系统上,我们在Top 500 LINPACK测试中消耗了大约830万瓦特,然而按每天计算,
使用泰坦在节点数量相同、内存更大、处理器更快的情况下,我们每天消耗的功率为500~600万瓦特。
平心而论,这并非同类对比,因为美洲虎系统的数字是LINPACK测试数据,是按照整个系统全力运行而计算得出的,它所消耗的功耗大约多10%。然而尽管如此,这是泰坦团队遇到的最满意的惊喜之一,这在很大程度上要归功于GPU加速。这也不仅仅是应用性能高效提升的事情,GPU 的一大优势是能够在闲置不用时降至近乎零功率状态,在需要时快速切换回工作状态,而且无需操作系统的帮助。CPU在这方面表现得不好。
对超算系统,GPU优势已被验证
虽然在Top 500榜单上有多款GPU加速的系统,但是它们当然不占多数。“它们没有被部署在大量计算设施当中是因为人们害怕它们、它们会无法运行、它们总是会崩溃、它们难以编程,这些完全都是无稽之谈。”诚然,他表示,GPU的确没有提供很好的“开盒即用”体验,但是在NVIDIA与克雷公司合作之后,系统运行得非常好,很好地证明了GPU在功耗与性能两方面的优势。他表示:在加速应用准备中心针对泰坦和即将问世的高峰计算机而对代码进行优化之后,可以肯定地说,GPU在应用的广度与功能性方面的优势均已得到证实。
www.nvidia.cn www.leadtek.com www.autodesk.com.cn www.adobe.com.cn