升级超级计算机


Cray XT5 之 Jaguar ,是 Top 500 截止今年 11 月的新晋状元:竞争很激烈呀,月月都在变化。顺便提一句,他们上周三还发布了一个 Top 500 的 iPhone App ,真想得出啊……

jaguar-6_0

Jaguar 用了 AMD x86_64 Opteron Six Core 2600 MHz (10.4 GFlops) 处理器,socket 数量大约是 37,376 个,处理器core 224,256 个,不过除此之外还有些 login/service 节点,加起来其实大约有 255,584 个核心。

其实此前 Jaguar 用的是 4 core 的 opteron,现在我们看到的这位 Top 500 状元是在其基础上换用 6 core 处理器升级而来的。没错,除了处理器和 每个 node 的 firmware,没什么其他变化,它就是一个已有系统的升级而已,与架构什么的升级完全不搭界。那么,好玩的部分来了,升级超级计算机和升级自家房间角落里落得满是灰尘的 PC 有什么不一样啊?他们(Cray) 是怎么完成这个活的?—- 每个机箱内 8 个处理器,完成一个更换需要熟练工人 5 分钟,要跟换总共 37376 个处理器,花费时间 1 周 —-这个升级可价值 2000万美元呢。

下面这个视频是升级 Kraken 而非 Jaguar 的,不过过程差不了多少。 Kraken 也是一部 Cray XT5 系统,目前排名 榜眼。
(提供了 YouTube 和 Youku 两份视频,内容一样,方便不同读者访问而已)。

怎么样,其实跟自己升级电脑没什么牛逼的不同吧 ^_^,超级计算机的着力点在架构上,比方互联方法,OS 针对性优化等等,倒是对处理器个体以及节点的实现就像建筑师看水泥标号一样了,无论是建筑工地还是超级计算机,都是一样。我觉得好玩的是,像拆卸和安装散热片 heat sinks,涂抹硅脂以及最后的升级部分都不是流水线自动化的(更换 CPU 需要笨拙的人工我理解,socket 卡槽这样设计没办法),还要手工完成,,窃以为这是比较容易自动化的部分。这就是我们常看到的“高技术产品的低技术之根”—- 绝无歧视。这足以证明 Cray 仍然活得很滋润,无需从压榨生产线下手来保证利润,enjoy!

消息来源 Wired