以技術驅動創新,以芯力量擁抱數智未來。《芯事》訪談對話科技創新者、引領者,探索創芯之路,共建硬核算力,賦能科技創新。
媒體合作|eefocus與非網
本期《芯事》人物
張獻濤
阿里云彈性計算產品線總經理
十多年前,當業界還在探討“云計算將給IT產業格局帶來什么變化”時,也許并沒有想到云計算會從當初的抽象構想成為全球產業變革的必由之路,并成長為重要的經濟引擎。
時至今日,云計算推動的產業、商業和社會變革,已經匯聚成承前啟后的關鍵力量,成長為數字經濟的核心生產力,而面向ChatGPT等AI應用掀起的新革命,云計算的創新活力還將持續釋放,芯片作為重要的算力支撐也將發揮更大的價值。
本期《芯事》訪談,與非網采訪到阿里云智能基礎產品部副總裁、阿里云彈性計算產品線總經理張獻濤。
三步見證中國云計算發展
張獻濤在回顧起云計算發展的早期階段時調侃,“大約在2014年左右,當時還處于傳統算力向云計算的轉移過程中,用戶多是中小站長為代表的個人開發者,負載可能就是一些中小企業的網站,不會有太多客戶關注高可用性、高性能等指標。”
時間來到2015年,新一輪移動互聯網爆發了,以互聯網公司為代表的技術型企業,逐步推動傳統IT系統向基于云的IT系統轉移。“云計算的第二發展階段拉開了大幕,對IaaS、SaaS高穩定性、高性能的需求爆發了。”張獻濤說道,“也就是在這個時間節點,阿里云開始了戰略轉型,從傳統的服務中小站長用戶,面向移動互聯網場景的大信息流、高實時性、高性能、高并發的場景做出調整。正因如此,我們也承接了移動互聯網發展的一波紅利,迎來了中國云計算市場的爆發式增長。”
2020年以后,云計算進入了第三發展階段。張獻濤表示,“云計算開始縱深發展,上云的趨勢從消費互聯網向產業互聯網轉移,以產業客戶為代表的傳統企業上云的訴求越來越明顯。”
這對云計算其實提出了較大的挑戰,因為需要保障客戶業務在連續、不間斷的情況下,能夠遷移到云的架構。也正是在這個關鍵節點,阿里云開始了包括計算架構、處理器、存儲等核心技術的創新變革。
軟硬協同設計應“云”而生
在傳統IT時代,軟件和硬件之間的依存程度并不高,可以分離演進,并行發展。但是進入云計算時代,軟硬件分離迭代的模式逐步顯現出局限性。應用變得越來越復雜,算法、軟件和硬件的隔閡,已經無法滿足在超大規模計算場景下提升IT計算效率、降低計算成本的訴求。如何最大化發揮“云”的價值,實現應用快速上線且高效運行成為發展的關鍵。
“其實這也提供了一個機會,如果你對硬件、系統軟件、中間件等都掌握的話,你就可以很好地進行軟硬件協同設計,這是云計算時代一種新的技術紅利。”張獻濤表示,“我們當時就在深入思考,既然硬件系統、軟件系統都是自研,下一步我們如何從軟件定義硬件、定義芯片的視角,來做軟硬件協同的設計?”
當時,傳統的虛擬化技術應用到云計算過程中,其實存在非常多問題,比如算力損耗等,而這通常意味著計算成本可能會隨之增加。張獻濤談到,“所以在當時的時間點上,我們首先需要通過軟硬件協同設計,解決傳統虛擬化技術帶來的這些問題。不過這一挑戰非常大,因為現有芯片無法滿足這些需求,我們幾乎評估了業界的所有芯片后,決定重新設計芯片、設計硬件、設計服務器的計算架構,并且對整個系統軟件棧進行重構,這是一個浩大的工程。”
后來的事實證明,阿里云當時的這一決定極具前瞻性,使它既享受了軟硬件協同設計所實現的技術紅利,同時也給云計算客戶帶來更多收益,比如更低的成本、更優質的算力服務等。根據IDC數據,阿里云數年來穩居公有云市場排名第一的位置,并領跑金融云、視頻云等領域。
從“芯”出發,為云而生
近年來,跨界造芯成為科技界的一大趨勢,不論是云計算大廠、AI算法公司或是車企,對于芯片的關注度越來越高。在這些跨入芯片圈的企業中,阿里巴巴旗下的平頭哥可以說是國內起步最早的企業之一,一個核心的研發方向就是數據中心芯片。
成立于2018年的平頭哥,正處于云計算的拐點之上。
還記得2017年左右,阿里云的廣告語“上云就上阿里云”,雄踞國內各大機場。短短一句話,傳遞了云計算當時正在進行的變革和創新——它不再是互聯網企業的特有應用,而是逐漸蔓延到傳統領域,向千行百業的企業發出“上云”邀請。一個趨勢已經顯現——云計算將擴展到大數據、AI、物聯網等領域,共同成為傳統企業進行數字化轉型、我國發展數字經濟必不可少的基礎支撐。
而這一切,都在倒逼底層技術加速升級。對于當時的云計算巨頭來說,頭等大事就是如何滿足企業多種多樣的差異化需求?如何提供更具性價比的云服務?一方面是看得見的巨大藍海,一方面是對性能效率最大化的迫切需求——在這些推動因素下,自研芯片就成了一種自然而然的選擇。
倚天710是阿里巴巴第一顆為云而生的CPU芯片,由平頭哥半導體自研,設計核心在于適配阿里云大規模、多線程、高并發的業務特點。倚天710采用Armv9架構,擁有128個核心、主頻2.75GHz。通過將芯片設計與云場景的獨特需求相結合,倚天710最終實現了性能和能效比的雙重突破:性能超過當時的業界標桿20%,能效比提升50%以上。倚天710發布后,2021年天貓“雙11”核心交易系統平滑遷移至倚天實例,算力性價比提30%。
隨著部署規模的不斷擴大,自研芯片的種種優勢被不斷放大,不僅有助于打造穩定、響應快、能快速擴展的計算基礎設施,更便于云廠商在每個業務流程中做到效率與成本的最優化,同時,還可以做到硬件和軟件并行開發,這意味著能夠跨越傳統設計界限、創新速度更快。
“我們發現一些客戶對倚天芯片的擁抱程度其實是比較高的,尤其是互聯網客戶,因為不需要他們進行太多的業務架構或代碼層面的改動,就能獲得更強的性能優勢。此外,阿里云倚天實例在視頻編解碼業務場景中,性價比提升超過80%,在密集型計算業務場景中,性價比提升50%以上。”張獻濤表示,“這樣的客戶越來越多,也更加堅定了我們與平頭哥半導體一起在自研芯片這條路上繼續往前走的決心。”
阿里云倚天ECS的用戶中,北京科學智能研究院在使用密度泛函數理論軟件時,性價比提升70%;匯量科技廣告推理業務使用倚天710云實例,性能和網絡帶寬雙雙提升,性價比提升40% 以上。
談及對云原生系統中未來芯片的構想,張獻濤表示,“我們還是希望能夠加入更多的云原生元素,與平頭哥半導體繼續緊密合作。此外,還有對新的總線比如UCIe、CXL的支持,從而能夠和CPU的計算架構進行更為深度的融合,更好地發揮軟件的協同效應。”
AI時代,軟硬件融合是更優算力的路徑
在生成式AI掀起的巨大聲浪中,大模型對計算能力提出更高要求的同時,也給云計算帶來了新的應用場景。隨著大模型應用逐漸深入到千行百業,未來,每家企業都可以是“AI大模型企業”。大模型時代需要什么樣的云服務?如何進一步降低用戶上云門檻?
顯然,成本首先是一筆要算的賬,現階段大模型的算力成本非常高昂。對此,張獻濤表示,還是需要提升算力效率,通過軟硬件的充分融合,通過自定義的芯片去加速算力提升,比如和平頭哥進行更加深度的合作,能夠讓這個領域所需要的強大AI算力,通過軟硬件的深度協同變得更高效、成本更低。
“無論是在初代智能時代,還是這些年AI的發展,其實都需要深度的軟硬件融合技術帶來提升。而軟硬件融合的本質更多還是軟件定義硬件的一種新型模式,通過這種模式,軟件和硬件之間的協同程度更高了,能夠讓軟件的效率充分發揮出來,最終可以把整體計算效率提升起來”,張獻濤談到。
面臨AI浪潮的來襲,云計算不僅需要通過算力普惠推動企業的數字化轉型,同時,也肩負著助力AI更普及、為千行百業智能化升級提供核心動力的重任。在云計算和AI深度融合驅動的新一輪變革中,云計算和AI大模型將共同成為新時代的基礎設施,而芯片將提供必不可少的底層支撐,讓算力更普惠、讓 AI 更普及。一個由算力撬動的智能時代---大幕已經拉開。
-
平頭哥
+關注
關注
0文章
65瀏覽量
9105
原文標題:芯事訪談 | 阿里云張獻濤:算力需求暴增,底層創新為云計算“續航”
文章出處:【微信號:gh_65bdec3412bd,微信公眾號:平頭哥半導體】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論