Semiconductor Engineering與AMD的CAD基礎設施和物理設計研究員Philip Steinke、 Cadence負責云業務開發的副總裁Mahesh Turaga、Lightmatter硬件工程副總裁Richard Ho、Siemens數字工業軟件公司云解決方案副總裁Craig Johnson,以及Synopsys研究員Rob Aitken討論了芯片設計向云上的轉變速度是如何加快的,在云上進行芯片設計的好處有哪些,以及當今芯片云上設計面臨的一些最緊迫的挑戰。
SE:向芯片云上設計的轉變正在加速,相應的商業模式也正在制定,工作負載也得到了更好的理解,半導體生態系統中的幾大參與者之間的一些合作就是最好的證明。那么,從用戶的角度來看,在云上進行芯片設計帶來的最大好處有哪些?在云上設計一定能有好處嗎?
Steinke:在AMD,我們采用了混合多云策略。采用云的最大好處是幫助我們擴展了計算基礎設施,使我們在需要進行計算時獲得更大的靈活性,也和我們的項目周期和路線圖非常契合。
我們也很好奇在云上探索差異化解決方案會有什么樣的收獲。云基礎設施在一些方面可能會為我們帶來便利,如一些我們選擇不部署或難以部署的東西,例如真正的高速網絡或一些不同的存儲模型。這些都是我們一直在進行探索的,看看它們能給我們帶來什么樣的價值。
Ho:作為一家無晶圓廠半導體初創公司,在云上設計對我們至關重要。這樣我們無需為了進行設計而建設自己的基礎設施。但優勢還不僅僅就這一個。靈活和增加資源的能力,尤其是在驗證等方面,對我們來說也至關重要;我們不必為一個工作負載就調整整個基礎設施的大小,而是可以根據需要進行調整。當達到峰值負載,并要進行流片時,云能夠根據我們的需求同時進行擴展。
無論是從應用的容量角度,還是從性能角度,這種外包整個基礎設施的方式都具有極大的價值。我們可以使用最新的CPU核心,而無需不斷升級自己的內部CPU,事實上我們還可以受益于云運營商在后臺進行的自動升級。
此外,我們也能減少IT部門的人員配置,并能夠利用云上的安全性和他們提供的支持,這是我們能夠快速實現流片并向前邁進的關鍵因素之一。在云上的這些工具,以及可以在云上使用的一系列工具,對我們來說都非常有價值。
SE:從EDA工具提供商的角度來看,你們怎么看芯片云上設計的優勢?
Johnson:云基礎設施對于服務動態需求的應對非常好。另一個令人驚訝的是其硬件的可用性。這和五年前的情況大相徑庭。新冠疫情導致的供應鏈問題,讓交付周期變得非常長,即使是大公司也要比正常情況下等待更長的時間。能夠利用云基礎設施來解決這一問題已經毋庸置疑。
Turaga:我們從客戶那里聽到了很多商業優勢,包括工程生產力的提高、創新的增加、更快的上市時間,這些都是一些商業利益。有一個例子是基于Arm的服務器在云上對Cadence工具進行基準測試,他們預測能夠以多快的速度將上市時間縮短兩個月。他們工作得也非常愉快。
還有一件我們都很在意的事,那就是如果無需等待工作運行,無需排隊,但我們所有人工作起來都會很快樂。這提高了生產力和整體吞吐量。然后你也可以有時間做更多的事。
Aitken:另一個好處是能夠進行控制和監控,因此,作為云管理員,你可以跟蹤用戶在做什么,這和以前不同,每個人都需排隊等待。在這種情況下,你能夠了解在既定時間內,項目需要計算的級別,所以這對設施的管理也很有幫助。
SE:芯片云上設計需要解決的最大挑戰是什么?
Ho:需要解決的問題之一是啟動大型項目時需要的延遲非常低。有時,云中會有一定數量的虛擬機(VM),并且想運行100,000個模擬項目時,拆分這些額外的VM實際上需要很長時間,這樣就會變成一個問題。在基礎設施方面,我們可以做一些事情來進行準備,讓虛擬機也做好準備,并能夠管理這些事情,以實現大容量的低延遲啟動。
另一個大問題是,這不僅僅與基礎設施有關,還與許可證有關。EDA供應商仍在以10年前的模式,按三年為期簽訂合同。在云端,則需要他們具有靈活性。當我們處于項目低峰時,EDA供應商需要允許我們在任何情況下都能取得許可。然后,當我們達到項目高峰時,他們則需要能夠快速為我們提供許可,并能夠讓我們立即調度它們,這樣我們就不會受到資源的阻礙和約束。
這是目前比較麻煩的事情之一。我們不僅要為機器進行預案,還要為獲得許可進行提前預案。如果一切都是無縫銜接的,那就完美了。
Steinke:目前云計算能力分布全球,但我們仍使用90年代風格的數據中心,算法仍在低數量的CPU內核上運行,并尋找某種非常接近計算的POSIX存儲。你能擴展的只有這么多。
從現代計算基礎設施的角度來看,云帶來的是一個真正的全球分布式網絡,在這里,每個云提供商都建立了一個跨越不同地理位置的龐大骨干網,以及基于對象存儲的系統,這些系統能實現在不同位置都可使用數據。例如我可能想要在南極洲或廷巴克圖進行計算,而其他人可能不需要它,那里的價格就會變得最低,我的數據也可以在合理的時間內到達那里。但要做到這一點,我們將需要能夠在這種分布式環境中工作的工具,并了解如何在需要數據時獲取數據,而且不需要一直增加工作負載。我們還需要能夠擴展CPU的數量,以真正加快這些大項目的周轉時間。
Ho:如今,假如許多工具流都使用POSIX風格,共享NFS存儲,這樣導致將數據從一個云移動到另一個云既昂貴又耗時。這是個大問題。現在很多EDA工具都預設了您已經擁有共享數據存儲,我們必須解決這種情況。
Aitken:就某些算法來說,這說起來容易做起來難。有一些類型的工作負載,如模擬等,很容易轉移到云計算模型。還有一些,比如布局布線,則會很難,因為這些算法本身是在很久之前的時代——人坐在工作站前打字和文件系統進行交互——開發的。該解決方案的結構使得使用現代文件系統和通信在數據中心上擴展該算法變得毫無意義。
因此,研究團隊需要做的工作就是要如何設計一個新的布局布線算法,或者其他可以映射到云環境的本地數據密集型算法。實際上,如果你要從頭開始,在還沒有人意識到這個問題前,你可能需要另一種不同的方法來解決這一問題。但在這個領域經營了三四十年之后,移動是很困難的。
Johnson:對于大多數問題,如許可,甚至計算的存儲和可用性,總是有三個限制,即經濟限制、技術限制和運營限制,通常他們是代表這些不同派別的公司的不同利益相關者。
從技術角度來看,可能很容易找到一個解決方案,但它不能兼顧經濟利益或運營的便利性。之所以一直無法解決這些問題,歸根結底是如何找到組合的最小公分母和最佳公分母。我們認為這些是EDA供應商的共同問題。
Turaga:我同意以上都是我們目前面臨的一些挑戰,我們也正在努力解決其中的一些挑戰。我們已經開始提供靈活的許可模式。就數據問題,我們仍在研究正確的數據量到底是多少,并在正確的時間以正確的數量提供。這是一個挑戰。有一些行業解決方案具有flex緩存,IBM有一些開源解決方案可以解決一些數據同步問題,可以使數據在預置型(on-prem)模型和云之間無縫傳輸。
正如Rob指出的,有一件事仍然是一個問題,那就是一些工作負載更適合于此,而另一些工作負載則更復雜,這取決于特定的數據需求。例如,通過驗證,將正確的項目數據發送到云中并返回結果變得非常有意義。對于像實現或多物理分析這樣的大數據項目,你必須采取不同的策略。
采用混合工具也是我們正在考慮解決這一問題的另一個方法,因此基本上,處于預處理工具舒適區的客戶可以只發送所需的數據,然后只返回他們所需要的結果。
責任編輯:彭菁
-
芯片
+關注
關注
455文章
50851瀏覽量
423904 -
cpu
+關注
關注
68文章
10870瀏覽量
211874 -
硬件
+關注
關注
11文章
3338瀏覽量
66239 -
虛擬機
+關注
關注
1文章
917瀏覽量
28217
原文標題:芯片云上設計的優與劣
文章出處:【微信號:IP與SoC設計,微信公眾號:IP與SoC設計】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論