易评:“天河2”蝉联5届超算冠军 是骄傲是虚名

站长资源 2021-07-09 14:48www.dzhlxh.cnseo优化

文/ 卢鑫

这是本在三周前就应该写下的文章,不过长沙网络推广却刻意等到了今天……等什么呢?一条本周早些时候公布但并不起眼的消息——Green500组织发布《6月期绿色超算排行前500甲》。

新一期排行结果果然如此前预料——冠军再度易主。半年前由华硕和德国亥姆霍兹中心(GSI Helmholtz Center)联手打造的黑马“L-CSC”,如今被挤到第四位;新的三强则全部来自日本,且均由日本ExaScaler Inc.和PEZY Computing两家公司携手研发。

纵观Green500(以每瓦性能为指标的排行)的“千变万化”,对比Top500(以最高性能为指标的排行)的“万年不变”,这其中其实只说明了一个问题——在今天的超算世界里,市场更关注的是有着更高实用价值的中小型超算系统,而不是只具备象征意义,“买的起但用不起”的巨无霸工程,如我们的“天河2号”。

超算研发难点在于软件和能耗

在继续吐槽之前,长沙网络推广想要先澄清一些超算研发的难点和挑战。

外行人士通常都会调侃——中国的超算冠军是靠“堆硬件”堆出来的,核心技术都是别人的,就是比别人多用了几块CPU和GPU而已——这种说法从某种角度看——没错!

业内人士对以上说法通常会反驳——超算绝对不是简单的堆砌硬件,团队在超算领域的研究是拥有核心知识产权的,其中一部分甚至是世界领先水平——从某种意义上来说,其实——也没错!

首先,美国人提供的CPU和GPU并不是“买来即用”的。怎么让成千上万个处理器在物理架构层面互联互通,是需要一定技术的。而这个技术的难度有多大?世界上当然只有少数国家掌握,只不过至于其他的大多数国家,譬如非洲的难兄难弟、南美洲的战略伙伴、中东的石油大亨,以及欧洲那些丁点儿大,自身只发展旅游和金融业的福利发达国家……他们似乎也没有迫切发展超算技术的需要或条件。因此,总体说来,其实有此方面发展需要的国家本质上都已经掌握了相关技术(剩下的只是经验问题)。

其次,海量的处理内核“堆砌”在一起,如何充分利用,并有效管理及合理分配系统资源——对linux内核进行优化,重点在于改进系统资源的分配和调用效率——是一项巨大的软件工程,需要相当的经验累积和编程技巧(也正因为linux的开源与开放,所以在超算领域形成了绝对的垄断地位)。因而从以上这个角度出发,长沙网络推广相信“天河2”是先进的——至少能有效利用到3,120,000个内核,并且通过峰值性能证明了自己。

只不过,这最后要提到的一个难点——功耗,已让不少曾经大力发展“万亿次级”超级电脑的国家都暂停了前进脚步。像“天河2”这样功耗高达17,808千瓦的巨无霸,供电问题不仅只是成为了批评者攻击的“槽点”,更是因为这种先天性的缺陷,使得整个系统从实用性方面看就几乎成了一种“摆设”——敢问,除了当初拿来测试峰值性能那段时间,“天河2”有多少时日曾是“马力全开”的?

这里长沙网络推广来给大家做一个简单的计算和比较,以帮助更好地理解“17,808千瓦”究竟是个什么概念。

中国大陆第一座大型商用核电站——大亚湾核电站,共装配6个发电机组,总装机容量6,120,000千瓦,其中70%为香港供电,30%为广东供电。如果“天河2”全负荷开机,17,808千瓦瞬间没了,也就是供给广东的那部分电力,其中的1%被广州的“一栋楼”给用掉了。2013年全北京市社会用电总量为913亿度(千瓦时),这与三峡发电站全年发电量相当——988亿度,而如果“天河2”马力全开运转一年,17808 X 24 X 365 = 155998080度电,约1.56亿度,北京0.17%的城市用电没了——看起来比重似乎不高,但试想一下过去几年出现的冬夏两季“电荒”,以及0.17%北京用电所能覆盖的人口数量就感受到其可怕了。而这只是广州的“一栋楼”哦。

功耗问题同时也还带来了散热的问题。像“天河2”这种级别的超算系统,往往需要用到几层楼(也就是一整栋建筑)来统一解决供电、散热以及主机房占地等多方面考虑。换用通俗一点的话来说,这些最后其实都是“钱”的问题——“天河2”造价大约1亿美元,而马力不全开,每年仅电费就要人民币约1亿元;而如果马力全开,电费则至少要人民币1.5亿元。以上还未包括其他维护成本哦。

令人反思的“金牌文化”

当然,如果说“天河2”是形象工程,那就肯定过分了。在首次摘得Top500桂冠时,“天河2”是令国人骄傲的。

但是,在连续5次蝉联该榜榜首之后,主流媒体还继续把这一头衔拿出来说事,还继续当作是一种荣耀……这就有点“抱着四大发明不思进取”的感觉了……如今,主流的超算研究方向早已不再是追求极致的Top500排名。至少不是在现有的处理器技术上通过“堆砌”更多硬件,来打造出一台可以荣获“世界第一”,但同时也可以吞噬一座小型核电站的“能源杀手”。(有关超算处理器技术的深入分析,可以今后另外开篇讨论,一部分内容可以参见《易评:从英特尔收购Altera看"国产芯"离世界有多远》)。

这里我们还可以参照美国能源部在今年初的一些动作。该机构虽然跟IBM和英伟达签了拟在2018年打造全新“百亿亿次级”(Exascale)超级计算机的合同,但同时我们也要注意到——美国能源部其实一共向五家企业(AMD、Cray、IBM、英特尔和英伟达)分别注入了数千万美元的研发投资,目的是通过对处理器技术的革新,来实现划时代的“百亿亿次级”超算系统。

美国政府并不是不可以利用最新英特尔CPU和最新AMD或英伟达GPU打造出一台超越“天河2”的怪物——当前排名第二的“泰坦”超级计算机,是Cray公司于2011年基于美国橡树岭国家实验室“美洲虎”超级计算机升级而成,采用的还是AMD的Opteron系列CPU和英伟达的Tesla系列GPU。这足够落后了吧?试想我们上次在主流媒体上看到Opteron处理器是啥时候?——然而,如果简单地用更多CPU和GPU来打造出超越“天河2”的超算系统,“投资”与“回报”则很可能无法形成正比。这里我们可以对比一下排名第一的“天河2”与排名第二的“泰坦”在性能和功耗两项指标上的具体差别:

Copyright © 2016-2025 www.dzhlxh.cn 金源码 版权所有 Power by

网站模板下载|网络推广|微博营销|seo优化|视频营销|网络营销|微信营销|网站建设|织梦模板|小程序模板