前段時(shí)間,新一期全球超級(jí)計(jì)算機(jī)500強(qiáng)(TOP500)榜單在美國鹽湖城公布,中國神威太湖之光蟬聯(lián)冠軍,中國天河二號(hào)屈居次席。除神威太湖之光和天河二號(hào)外,中國也在TOP500上榜總數(shù)上與美國持平。
正如天河2號(hào)獲得6連冠后卻因?yàn)槭褂昧?a href="http://m.1cnz.cn/tags/intel/" target="_blank">Intel公司的至強(qiáng)Phi計(jì)算卡而被一些別有用心之徒百般詆毀,在神威太湖之光實(shí)現(xiàn)了包括處理器在內(nèi)的所有核心部件全部國產(chǎn)化后,網(wǎng)絡(luò)上又傳來了不和諧的音符——有媒體認(rèn)為,神威太湖之光的“可用性能與理論性能相去甚遠(yuǎn)”,并以“HPL效率是74.16%”,“HPCG測(cè)試只有0.371PFLOPS,效率則只有0.3%,這比天河2號(hào)的1.1%還要低”來質(zhì)疑神威太湖之光。
言下之意,就是神威太湖之光的可用性能與理論性能相去甚遠(yuǎn),只能用來跑分,根本就用不來。那么什么是Linpack和HPCG,神威太湖之光真的只能用來跑分么?
什么是Linpack?
上面媒體的一段話引用了幾個(gè)測(cè)試的結(jié)果,并以74.16%、0.3%、1.1%等實(shí)際數(shù)據(jù)來說明中國超算可用性能與理論性能相去甚遠(yuǎn),非常具有迷惑性。筆者簡(jiǎn)單的就Linpack測(cè)試和HPCG測(cè)試做個(gè)簡(jiǎn)要說明。
Linpack指的是矩陣求解,在科學(xué)計(jì)算中把實(shí)際問題抽象成方程組,然后離散成矩陣計(jì)算矩陣倍,代表的是傳統(tǒng)的以矩陣為基礎(chǔ)的數(shù)值計(jì)算方法,常用于理科和工科的數(shù)值求解和數(shù)值模擬。那么為何超算大多以Linpack測(cè)試成績(jī)論高低呢?原因就在于很多科學(xué)計(jì)算模型都包含了矩陣求解,比如解微分方程,因此在超算任務(wù)中具有不可取代性——像輻射流體力學(xué)就是求解微分方程;而核爆炸模擬其實(shí)就是輻射流體力學(xué)+蒙特卡洛預(yù)測(cè);雷達(dá)截面的矩量法計(jì)算也有賴于解微分方程;業(yè)內(nèi)專家還告訴筆者“現(xiàn)在的深度學(xué)習(xí)算法的核心算法與Linpack的是一個(gè)”。..。..。因此,linpack測(cè)試并非是一些跑分軟件那樣:不服跑個(gè)分,而是真正具有實(shí)戰(zhàn)價(jià)值的測(cè)試。
Linpack效率指的是實(shí)際計(jì)算時(shí)的次數(shù)除以理論計(jì)算,舉例來說:
神威太湖之光的理論性能為125.4 PFlops,Linpack浮點(diǎn)性能93PFlops,Linpack效率為74.16%。
天河2號(hào)的理論性能54.9Pflops,Linpack雙精浮點(diǎn)性能33.8PFlops,Linpack效率61.5%
泰坦的理論性能27 Pflops,Linpack雙精浮點(diǎn)性能17.6 PFlops,Linpack效率為65.19%。
紅杉的理論性能為20.1Pflops,Linpack測(cè)試雙精浮點(diǎn)性能為16.3P,Linpack效率高達(dá)81%。
這里要說明一點(diǎn),就是超算的規(guī)模越大,Linpack測(cè)試效率的提高就越難——規(guī)模大到如一定程度,維持一段時(shí)間的穩(wěn)定運(yùn)行是非常難的,何況是太湖神威之光93PFlops的高性能。而神威太湖之光在Linpack測(cè)試性能是美國超算泰坦5倍以上的情況下,Linpack測(cè)試效率大幅領(lǐng)先于泰坦,這就非常可貴了!至于紅杉的Linpack測(cè)試效率為何會(huì)高達(dá)81%,筆者會(huì)在下文做講解。
另外還要說明的的一點(diǎn),天河2號(hào)Linpack效率低于美國泰坦的原因——一方面是因?yàn)樘旌?號(hào)的規(guī)模更大,影響了效率;另一方面是因?yàn)樘旌?號(hào)采用的是Intel的至強(qiáng)PHI計(jì)算卡,而該計(jì)算卡就以理論性能強(qiáng)大,但穩(wěn)定性能相對(duì)偏低著稱——同樣使用E5和至強(qiáng)PHI計(jì)算卡的美國超算Stampede,不僅運(yùn)算能力僅為天河2號(hào)的五分之一左右(未升級(jí)前,升級(jí)后為三分之一),整機(jī)效率比天河2號(hào)更低,只有60.7%。
總而言之,以神威太湖之光的規(guī)模,取得Linpack效率達(dá)到74.16%已經(jīng)非常厲害了,在采用異構(gòu)計(jì)算的超算中屬于頂尖水平,大家千萬不要被一些無良媒體誤導(dǎo)了。
異構(gòu)超算在Linpack效率上天然低于同構(gòu)超算
對(duì)于筆者認(rèn)為的神威太湖之光Linpack效率達(dá)到74.16%屬于頂尖水平的結(jié)論,也許某些人會(huì)提出異議,比如會(huì)列舉出TOP500排名第四的美國超算紅杉,紅杉的理論性能為20.1Pflops,Linpack測(cè)試雙精浮點(diǎn)性能為16.3P,Linpack效率高達(dá)81%。
那么為何紅杉的Linpack效率如此之高呢?原因就在于和神威太湖之光、天河2號(hào)、泰坦等采用異構(gòu)計(jì)算的超算不同,紅杉采用的依舊是傳統(tǒng)的同構(gòu)計(jì)算技術(shù)。
超算可以分為兩種架構(gòu)。采用同構(gòu)計(jì)算架構(gòu)的超算只需要單純使用一種處理器,在同一類型的處理器上執(zhí)行計(jì)算任務(wù)。舉例來說,中國超算神威藍(lán)光采用了申威1600,美國的米拉和紅杉采用了PowerPC-A2處理器,這些超算都沒有采用GPU或其它類型的眾核芯片等加速器。因此,紅杉、米拉、神威藍(lán)光都是采用同構(gòu)計(jì)算架構(gòu)超算的代表。
異構(gòu)計(jì)算使用CPU、GPGPU、GPDSP、ASIC、FPGA和其它類型的眾核處理器來處理不同類型的計(jì)算任務(wù)。采用異構(gòu)計(jì)算架構(gòu)的超算會(huì)使用至少2種類型的處理器,其中異構(gòu)計(jì)算架構(gòu)中通用CPU負(fù)責(zé)邏輯復(fù)雜的調(diào)度和串行任務(wù),加速器負(fù)責(zé)并行度高的任務(wù),實(shí)現(xiàn)計(jì)算加速。具體來說,采用異構(gòu)計(jì)算架構(gòu)的超算在運(yùn)算中既使用處理器,又使用GPU或眾核芯片等加速器。以中國天河2號(hào)和神威太湖之光為例,天河2號(hào)有16000個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由2片Intel-E5-2692和3片Xeon-Phi組成,共使用了32000片Intel-E5-2692和48000片Xeon-Phi。神威太湖之光雖然只采用了申威26010眾核處理器,看起來像同構(gòu)超算,但由于申威26010集成了4個(gè)管理核心和256個(gè)運(yùn)算核心,一片申威26010就是一個(gè)計(jì)算節(jié)點(diǎn),管理核心執(zhí)行類似于天河計(jì)算節(jié)點(diǎn)中E5的功能,而256個(gè)運(yùn)算核心則發(fā)揮了類似于Xeon-Phi的加速作用,因此也屬于異構(gòu)超算。
由于異構(gòu)編程需要提前預(yù)知模型并做特殊優(yōu)化,而且很多應(yīng)用未必適合異構(gòu)模型,使得采用異構(gòu)計(jì)算的超算對(duì)于編程和優(yōu)化的要求更高——一位業(yè)內(nèi)人士就評(píng)價(jià),“異構(gòu)編程太勞心勞力了,高端人才的精力應(yīng)該用在關(guān)注自己的專業(yè)上來,而不是當(dāng)代碼狗。..。..年紀(jì)大一點(diǎn)的科研人員就不愿自己編代碼了,一些年青但不愿勞思費(fèi)神的科研人員也不愿意編寫異構(gòu)代碼。..。..”。因此,采用異構(gòu)計(jì)算的超算在Linpack效率上天然低于采用同構(gòu)計(jì)算的超算。
那么既然同構(gòu)超算在編程方便和效率上具有優(yōu)勢(shì),為何全球超算都轉(zhuǎn)向異構(gòu)計(jì)算呢?原因就在于,這樣超算可以獲得更高的性能,之前抱怨異構(gòu)編程太勞心勞力的業(yè)內(nèi)朋友就表示,“超算方面眾核是近些年的趨勢(shì),雖然編程勞心費(fèi)力,但是在性能面前我們還是得忍,相同成本誰不想性能更好,科研對(duì)性能的需求可以用饑渴來形容”。
嘮嘮叨叨說這么多,主要是為了打一個(gè)補(bǔ)丁,防止別有用心之徒用美國同構(gòu)超算和中國異構(gòu)超算比Linpack效率,進(jìn)而抹黑中國超算Linpack效率低下,何況前者的規(guī)模遠(yuǎn)遠(yuǎn)小于后者。
什么是HPCG
目前,評(píng)價(jià)超算的指標(biāo)有不少,除了測(cè)試Linpack的TOP500,還有強(qiáng)調(diào)的是內(nèi)存帶寬和延遲的Graph500,Graph500對(duì)全系統(tǒng)的內(nèi)存帶寬和內(nèi)存延遲有很高的要求,而計(jì)算能力本身已經(jīng)不影響測(cè)試結(jié)果了,這種測(cè)試偏向于訪存密集型運(yùn)算,在大數(shù)據(jù)分析等場(chǎng)景下比較有意義。
除Graph500之外,還有強(qiáng)調(diào)節(jié)能環(huán)保的Green500。那么,在Graph500和Green500排行榜上,神威太湖之光的表現(xiàn)如何呢?Graph500名列第二,Green500名列第三。
不過,也有工程師認(rèn)為無論是TOP500,還是Graph500都過于極端——TOP500過于強(qiáng)調(diào)計(jì)算性能,Graph500過于強(qiáng)調(diào)帶寬和延遲等因素,因此采用了新的標(biāo)準(zhǔn)HPCG。
HPCG是美國正在推的一個(gè)新測(cè)試標(biāo)準(zhǔn),目前還沒有被業(yè)界廣泛接受,HPCG代表了共軛梯度迭代法的一類應(yīng)用的計(jì)算和通信特征,僅僅代表了某一個(gè)方面的特征,并不能涵蓋超算的所以特征。HPCG比較重視計(jì)算性能和通信的平衡,如果計(jì)算性能和通信不是一個(gè)量級(jí)的,即便兩項(xiàng)指標(biāo)分開看都很強(qiáng),但也會(huì)導(dǎo)致HPCG偏低的結(jié)果。
另外,HPCG也存在一些缺陷,據(jù)業(yè)內(nèi)人士介紹,“由于針對(duì)具體硬件結(jié)構(gòu)修改共軛梯度算法很容易得到高得多的成績(jī),為了避免這一點(diǎn),HPCG代碼目前還在鎖定狀態(tài),不準(zhǔn)修改算法本身。但在使用中,用戶是會(huì)修改算法的,這使得這一測(cè)試會(huì)脫離實(shí)際”。
在某媒體的報(bào)道中,“但在更具實(shí)戰(zhàn)意義的HPCG性能(高性能共軛梯度基準(zhǔn)測(cè)試)中,太湖之光只有0.371PFLOPS,效率則只有0.3%,這比天河2號(hào)的1.1%還要低”,0.3%和1.1%的數(shù)據(jù)和該媒體的這種表述很容易讓人誤認(rèn)為,天河2號(hào)和神威太湖之光的HPCG測(cè)試結(jié)果非常差,但實(shí)際上,在HPCG測(cè)試排行榜中,天河2號(hào)位列第一,而神威太湖之光為列第三,這其實(shí)是很不錯(cuò)的成績(jī)。而且一位業(yè)內(nèi)人士猜測(cè),“也許神威還沒有好好進(jìn)行優(yōu)化”。
必須指出的是,神威太湖之光的HPCG低于天河2號(hào),并非是因?yàn)橛?jì)算性能或在通信上不如天河2號(hào),恰恰相反,在計(jì)算性能上神威太湖之光大幅領(lǐng)先于天河2號(hào),而在互聯(lián)網(wǎng)絡(luò)方面,神威太湖之光也不遜色于天河2號(hào)——雖然在帶寬上有差距,但在實(shí)際應(yīng)用中,帶寬指標(biāo)比較延遲等指標(biāo)而言并不太重要(延時(shí)指的是1個(gè)CPU把自己的計(jì)算結(jié)果交給其他CPU,如及時(shí)送到,其他CPU就能繼續(xù)計(jì)算,否則就要等待了,芯片、鏈路、協(xié)議等都會(huì)影響延時(shí))。因此,神威太湖之光在HPCG上遜色于天河2號(hào),原因就在于計(jì)算性能實(shí)在是過于強(qiáng)悍,以至于產(chǎn)生了計(jì)算和通信上的不平衡,并最終導(dǎo)致自HPCG上遜色于天河2號(hào)。
神威太湖之光能否用得起來?
對(duì)于神威太湖之光根本用不起來的說法,其實(shí)只要關(guān)注新聞,就能明白這是徹頭徹尾的謊言。憑借“神威?太湖之光”強(qiáng)悍的計(jì)算性能,國內(nèi)科研單位在天氣氣候、航空航天、海洋科學(xué)、新藥創(chuàng)制、先進(jìn)制造、新材料等重1要領(lǐng)域取得了一批應(yīng)用成果——由中科院軟件所、清華大學(xué)和北京師范大學(xué)申報(bào)的“全球大氣非靜力云分辨模擬”課題,由國家海洋局海洋一所和清華大學(xué)申報(bào)的“全球高分辨率海浪數(shù)值模式”課題,由中科院網(wǎng)絡(luò)中心申報(bào)的“鈦合金微結(jié)構(gòu)演化相場(chǎng)模擬”課題分別入圍了戈登貝爾獎(jiǎng),使中國在該領(lǐng)域?qū)崿F(xiàn)零的突破。戈登貝爾獎(jiǎng)是高性能計(jì)算應(yīng)用領(lǐng)域的最高獎(jiǎng),神威太湖之光用事實(shí)說明,完全自主研發(fā)的超算不僅可以用起來,還能用的好。
另外,筆者介紹幾個(gè)神威太湖之光的具體應(yīng)用:
應(yīng)用一:基于國產(chǎn)平臺(tái)的國產(chǎn)地球系統(tǒng)模式。
公共地球系統(tǒng)模式是一個(gè)MPMD的大型并行系統(tǒng),經(jīng)歷了30年的建立與發(fā)展,核心代碼量超過150萬行,是目前全球使用最廣泛的地球模式,也是高性能計(jì)算的傳統(tǒng)應(yīng)用。CESM計(jì)算模式多樣,各個(gè)部分并不相同,對(duì)計(jì)算機(jī)器以及并行算法都有不同要求,在移植、加速以及優(yōu)化算法等方面都具有較高的挑戰(zhàn)。清華大學(xué)地學(xué)中心、清華大學(xué)計(jì)算機(jī)系為了將代碼量巨大的CAM模式擴(kuò)展到神威系統(tǒng)的百萬計(jì)算核上,對(duì)公共大氣模式CAM的代碼重構(gòu)與性能優(yōu)化設(shè)計(jì)了與神威系統(tǒng)計(jì)算、存儲(chǔ)模型相匹配的計(jì)算代碼,有效地提高了計(jì)算性能。與純主核版本相比,同時(shí)使用主、從核的優(yōu)化程序能取得22倍的性能提升。通過使用24,000個(gè)主核以及1,536,000個(gè)從核,全球范圍25公里分辨率的模擬速度可以達(dá)到2.81模式年/天
應(yīng)用二:航天飛行器統(tǒng)一算法數(shù)值模擬。
國家計(jì)算流體力學(xué)實(shí)驗(yàn)室基于”神威·太湖之光“超級(jí)計(jì)算機(jī),對(duì)”天宮一號(hào)“飛行器兩艙簡(jiǎn)化外形(長(zhǎng)度10余米、橫截面直徑近3.5米)隕落飛行(H=65km、62km、Ma=13)繞流狀態(tài)大規(guī)模并行模擬,使用16,384個(gè)處理器在20天內(nèi)便完成常規(guī)需要12個(gè)月的計(jì)算任務(wù),計(jì)算結(jié)果與風(fēng)洞實(shí)驗(yàn)結(jié)果吻合較好,為”天宮一號(hào)“飛行試驗(yàn)提供重要數(shù)據(jù)支持。
應(yīng)用三:納米線熱導(dǎo)率的大規(guī)模分子動(dòng)力學(xué)模擬
低維納米材料由于具有許多獨(dú)特的光、熱、電、磁等性質(zhì),已成為當(dāng)前材料領(lǐng)域研究的重要方向。當(dāng)前的實(shí)驗(yàn)測(cè)量技術(shù)在處理納米尺度傳熱時(shí)遇到許多困難,實(shí)驗(yàn)測(cè)量結(jié)果會(huì)存在較大的偏差。分子動(dòng)力學(xué)(NAMD)模擬方法能夠細(xì)致刻畫院子振動(dòng)周期內(nèi)的微觀過程,已經(jīng)成為研究低維納米結(jié)構(gòu)導(dǎo)熱性質(zhì)的主要手段。非平衡分子動(dòng)力學(xué)模擬(NEMD)由于類似于直接的實(shí)驗(yàn)測(cè)量,并且模擬收斂快,計(jì)算效率高,能夠處理像納米線、多晶這樣的不均勻結(jié)構(gòu),因此得到廣泛應(yīng)用。
中科院過程所利用“神威·太湖之光”計(jì)算機(jī)系統(tǒng)的大規(guī)模并行計(jì)算能力,模擬體系原子數(shù)目達(dá)到了了20億量級(jí),單一方向空間特征尺度達(dá)到500微米以上,從而可以考察低維納米材料力學(xué)和熱學(xué)性質(zhì)的一些臨界尺寸效應(yīng)。計(jì)算取得了良好的性能,有效擴(kuò)展到122,880個(gè)主核,共計(jì)798萬個(gè)計(jì)算核心,并達(dá)到了70%的并行效率。
除上述介紹的應(yīng)用之外,還有基于受體庫的藥物結(jié)合能力研究與生物大分子的分子動(dòng)力學(xué)模擬、島礁建設(shè)浮式平臺(tái)的移植與優(yōu)化、真實(shí)感動(dòng)漫渲染系統(tǒng)研究與應(yīng)用等具體應(yīng)用。在最近曝光率非常高的深度學(xué)習(xí)方面,無錫超算中心和北郵合作,實(shí)現(xiàn)在SW26010芯片上,對(duì)占卷積神經(jīng)網(wǎng)絡(luò)90%計(jì)算時(shí)間的卷積層操作進(jìn)行深度優(yōu)化,相比今年八月份的工作有26%的性能提高,在SW26010單核組上還實(shí)現(xiàn)了智能圍棋神經(jīng)網(wǎng)絡(luò)的正向傳播過程。..。..從上述例子可以看出,神威太湖之光不僅擁有可以用來爭(zhēng)奪戈登貝爾獎(jiǎng)的應(yīng)用,還有科學(xué)研究和商業(yè)用途的超算渲染方面發(fā)揮著巨大作用。
結(jié)語
雖然有觀點(diǎn)認(rèn)為不能過度看中Linpack成績(jī),但考慮到Linpack在科學(xué)計(jì)算中的實(shí)際價(jià)值,以及至今沒有可以替代Linpack的權(quán)威測(cè)試,超算的Linpack成績(jī)依然非常具有借鑒意義,從這個(gè)角度上講,將神威太湖之光全球最強(qiáng)超算的冠冕當(dāng)之無愧。雖然神威太湖之光并沒有在所有的測(cè)試中獲得第一,但這并非是可以詆毀神威太湖之光的理由——以神威太湖之光在一些測(cè)試中僅奪得第二名、第三名就否定這臺(tái)100P超算,這種否定方式絕不是科學(xué)的態(tài)度。
評(píng)論
查看更多