- 2012-10-19 12:18:20
- 类型:原创
- 来源:电脑报
- 报纸编辑:程朋
- 作者:朱文利 王诚
拥有为14万3千枚16核CPU;
存储容量高达2PB(1PB等于100万GB)
最高带宽达到69.6TB/s(1TB等于1000GB);
每秒峰值运算达1.07千万亿次,相当于20万台普通笔记本同时运算能力;
……
显然,这不是一台普通的电脑,这是中国首台自主研发CPU和底层系统的千万亿次超级计算机神威蓝光。
10月13日,带着几分好奇,电脑报记者来到济南超级计算机中心,第一次了解到神威蓝光的诸多细节,也见到了与这台国产超级计算机朝夕相处的一群科学家。
走进超级计算机的心脏
没有想象中巨大,神威蓝光就是一个放大的“0”躺在机房里,走进它,如果不是旁边一排商业服务器的噪声提醒,从外面封闭的外壳难以察觉它的运行。
国家超级计算济南中心陈德训研究员像魔法师为记者打开了三扇门。
第一扇“0”型头部的一扇门,映入记者眼帘的是晶莹透明、手指粗细的水管,有序地排列在两排机架上,与地板下的制冷系统相连,用手摸一下这些水管,都是冰凉的感觉。
第二扇门打开,是配列整齐的CPU,每排8颗CPU,128个核,一个机架上是一万亿次的计算能力。
第三扇门打开的时候,就是一个空的椭圆形小房间,“这里有什么宝贝?”
“进来吧,感受一下安静。”陈德训邀请记者走进蓝光超级计算机的内部,“环形墙”原来是9个计算机仓和2个网络机仓,除了网络连线上的指示灯闪烁,这里简直可以当着是静修的空间。
“这就是神威蓝光的主机部分”,总工程师周明忠研究员说包含14万3千个核的主机只占用60平米的机房,与其庞大的计算能力相比,确实是小巧玲珑。
神威蓝光从2011年9月整个系统安装加电测试以来,一直就是保持24小时的开机运行状态。
“关键是主机的CPU和底层软件系统全部是国内自主研发生产的,使中国成为继美国、日本之后,世界上第三个具有独立研发千万亿次超级计算机的能力的国家。”陈德训和所有研究员都倍感自豪。
最神秘的神威蓝光的CPU,是全球第一颗16核CPU,比AMD的要早6个月,并行操作系统、虚拟机管理器、多核编译器、并行编译器、海量并行文件系统、多核数学库则是自主研发的软件成果。
此时是10月13日中午12:08,从主机房外监控室的屏幕上,看到此刻正忙着的CPU是7760个,系统为正在运行的项目配置了8704颗CPU,屏幕上绿色显示闲着的CPU主要分布在第3号机仓。
“正在运行的是什么计算?”
“我们并不清楚每个计算项目的具体运行内容,监控主要是看机器性能配置,发现有问题会及时自动处理。”
“通常一次运算要多少时间?”
“一天的计算时间是最短的项目,项目一周左右的计算时间比较普遍。”
“怎么知道在这里跑的运算项目没有暗藏恶意代码?”
“运行前有一套安全检测程序会保证机器安全”研究员对记者的疑问一一耐心解答。
超级计算应用每一天
还有什么比超级计算机的应用最接近人们的生活?每天我们要看的天气预报就是最广泛的应用。
“如果需要,我们可以推算1000年后的气候情况。”周总工说,人类自1850年有天气记录以后,就产生了一些列气象数据,专家们可以根据历史数据建立数学模型,推演过去1000年或者未来1000年的天气变化。
现在天气预报的数据实际上是每小时都会有一个新的计算结果,气象部门还要参考其他气象因素,然后才定时播报。
类似的应用还有海洋数据分析,可以了解海底地貌几千年前的形状,其他的成熟应用还有石油勘探、金融分析、农业上基因育种筛选、动漫产业等等。
不过,这些应用的软件大都是国际上共享的软件,国内在应用上的研发缺失让济南超算中心研发部总经理潘景山感到一丝遗憾。
据介绍,目前国内仅有的四大超算中心,包括在建的长沙中心,天津、深圳中心都是采用GPU为主的异构架构,只有济南超算中心是国产CPU和底层软件系统,机器成本比采用国外处理器和系统的成本低,但研发成本远比采用国外产品的大。
“仅Cpu的研发就是十几年时间,我们在硬件上与国外产品水平相当,但在应用软件上,差距在30年以上”
“美国三大实验室,有几千人在应用领域研发,计算机专业的只百人团队。”潘景山对比国外在超算应用领域的重视,看到济南超算中心的40位员工,很有压力。
国外在超算系统与应用的开发投入上1:2 或者是1:3的比例,国内在软件应用上投入的人力资金仅有硬件系统的1/5。“大型软件,像海洋、气象这类,70年代的代码、90年代的代码都可以找到,是长期积累下来的东西,海洋、气象软件可以免费使用,但还有好多领域需要自行研发,我们现在是有大量数据,缺计算软件这样的工具,眼看着数据不能挖掘出智慧。”
从神威蓝光运行以来,很多个周六潘景山就是和同事们一起在超算中心加班度过的,记者在周六的采访也是他们众多工作日的普通一天。
疯狂博士带你看超级计算机
不过在我们的想象中,对超级计算机的认识却仅仅停留在“运算能力比普通电脑强很多”这个层面上。
超算机房看究竟(1)
疯狂博士带你看超级计算机
超算机房看究竟(2)
为什么每一层有三个电源开关?因为一层有三部电源,两部是备用的
走进神威蓝光超级计算机的机房,可以看到很多立式的机柜,在机房正中间摆成一圈的机柜正是神威蓝光,旁边排成一行的是常规的X86架构服务器机柜(从前面的机房布局图也能看出来)。
经工程师介绍,神威蓝光全部采用水冷设计,一是比风冷省电,二是几乎零噪音(这个我们后面详细介绍)。
工程师打开机柜,一层层的刀片机引入眼帘。经工程师介绍,每一片上有两颗处理器,每颗处理器有16个物理核心,每颗处理器配备了16GB DDR3内存。
疯狂博士发现刀片机上有三个电源开关,原来每一片都配备了三个独立的电源,就算有一个坏掉,另两个也能及时补上,大大保证了服务器的可靠性和稳定性(三个一起坏?这几率太太太小了)。
从机柜背后可以看到,各个节点之间是用光纤进行连接的,这样才能保证足够的数据带宽;而刀片机之间是直接用PCB连接的,数据带宽更高。
疯狂博士带你看超级计算机
超频用水冷?超算也用水冷!
一提到水冷散热系统,恐怕大家最先想到的就是发烧玩家玩超频的必备神器了。
其实,神威蓝光超级计算机也是采用的水冷散热系统,而且这也是它最有特色的设计之一。
首先,这套给超级计算机使用的水冷系统非常安静,基本上可以算是零噪音了;
其次,它非常节能,远比常规的散热系统省电得多,毕竟只需要驱动功率不算大的水泵,而且在冬天,济南的室外温度很低,冷却水在室外实现自然冷却,散热效率更高;
疯狂博士带你看超级计算机
超算拆开给你看!
这里需要说明一下,和我国其他几个超级计算机中心所用的CPU+GPU方案不同的是,神威蓝光采用的是完全自主开发的纯CPU方案。
其中申威SW1600C采用的架构与X86、ARM完全不同,采用自己的编译器和软件,具备16个物理核心(一般台式机上最多才8核),频率为1GHz,每颗CPU搭配16GB DDR3 1066内存。
看到这里可能玩家有疑问,怎么才1GHz?现在台式机的处理器默认频率都快破4GHz了。其实不能这么比较,申威SW1600C的架构不同于X86和ARM(X86和ARM兼容的软件无法直接在它上面运行,因此拥有很好的安全性),而且针对的数据与应用也不同于一般台式机,所以不能单纯从频率来衡量。
另外,从结构图上也可以看到,申威SW1600C内部有4个核心组,也就是说每个核心组包含了4个物理核心,由交叉开关来进行动态调节计算负载。
再来看看一个计算单元的主板,两颗采用BGA封装的申威SW1600C直接焊接在主板上面,周围是DDR3内存颗粒,每颗CPU分配了16GB内存。
 
报纸客服电话:4006677866 报纸客服信箱:pcw-advice@vip.sina.com 友情链接与合作:987349267(QQ) 广告与活动:675009(QQ) 网站联系信箱:cpcw@cpcw*.c*m
Copyright © 2006-2011 电脑报官方网站 版权所有 渝ICP备10009040号