根據Forrester預測,全球AI制造平臺產值到2025年將達到130億美元。并將成AI軟件第一大細分市場。AI芯片行業正在全球迎來春天。
(資料來源:《到2025年全球人工智能軟件市場將增至370億美元(The AI Software Market Will Grow To $37 Billion Globally By 2025)》)
另一方面,據研究機構賽迪顧問報告顯示,從 2019 年到 2021 年三年中國 AI 芯片市場規模仍將保持 50% 以上的增長速度,到 2021 年,市場規模將達到 305.7 億元。
面對如此誘人的市場規模和不斷變化的市場需求,即便AI芯片行業已經巨頭林立,依然有眾多優秀并且敢于創新的新生力量進入賽道,在極速發展中占有行業的一席之地,“燧原科技”便是其中不得不提的名字。
張文平
燧原科技軟件研發總監
張文平先生現任燧原科技軟件研發總監,管理軟件QA、Infrastructure 和 DevOps 團隊,擁有豐富的CPU/GPU/APU/xPU芯片的硅前驗證、芯片測試與產品量產的工作經驗,以及基礎軟件與 AI 軟件棧研發與測試的經驗。張文平先生曾于2011年加入AMD經歷過幾十款復雜SoC的Tapeout驗證、量產落地以及商業化實踐。此外他還曾就職于霍尼韋爾和華碩電腦等知名企。
“做大芯片”的AI領域黑馬
燧原科技于2018年3月在上海創立,在上海和北京設有研發中心,在深圳設有客戶支持部門。企業本著“做大芯片,拼硬科技”的初心,專注研發針對云端數據中心的深度學習高端芯片,定位于人工智能訓練及推理解決方案,是國內第一家同時擁有高性能云端訓練和云端推理產品的初創企業。
成立至今近3年半,燧原科技已完成4輪融資,融資總額近32億元人民幣。今年7月在上海舉辦的世界人工智能大會上,燧原科技推出第二代人工智能訓練芯片“邃思2.0”,成為國內首家發布第二代人工智能訓練產品組合的公司。經過全新升級迭代后,邃思2.0的計算能力、存儲和帶寬、互聯能力較第一代訓練產品有巨大提升,對超大規模的模型支持能力獲得顯著增強。而同步升級的馭算TopsRider軟件平臺,成為燧原科技構建原始創新軟件生態的基石。
尋找堅實的數字力護航產品研運體系
張文平表示:“燧原科技專注研發人工智能領域云端算力平臺,在整個研發進程中,既包括AI芯片與板卡的設計、開發、測試、量產,也包括AI軟件棧及相關工具鏈的設計、開發、驗證、測試等各個環節。”
AI芯片本身的諸多特性需要先進的芯片架構以及易用并持續迭代的軟件棧一起來保證。相較于純軟件企業的開發流程,燧原科技更具挑戰的是整個研發流程,既有Pre-Silicon階段的軟件模擬平臺、物理仿真平臺的開發驗證流程,又有Post-Silicon芯片、板卡、服務器系統以及AI集群等多種開發驗證環境。因此燧原科技過去一直在使用組合工具鏈來打造研發流程。
燧原科技的研發團隊使用不同工具來滿足不同研發要求,例如代碼托管平臺GitLab、制品管理平臺Artifactory、測試管理平臺TestRail等等各類優秀的工具、并且使用Gerrit/Jenkins/GitLab CI持續集成Pipeline。
然而,復雜的組合工具鏈在整合過程中,一直面臨穩定性與可擴展性等問題。 同時如何集成各種相關工具使其高效、可持續地工作,確保產品研發等各環節高質量的完成交付工作,燧原科技正在尋求突破的方向。
另一方面,燧原科技在國內上海、北京、深圳、杭州都設有辦公室,不同地點的研發人員協同效率問題也是研發團隊持續面臨的問題,尤其是隨著代碼倉庫的增大,代碼倉庫在托管平臺不同地點之間的同步也遇到挑戰。
張文平表示:“燧原科技從成立的第一天開始就在使用GitLab社區版產品,但是免費的社區版產品功能隨著公司的快速成長,已不再能夠滿足燧原科技對研發效率的追求,希望利用更多高階的增值功能并結合燧原內部的研發場景,構建敏捷、穩定、高效以及可擴展的研發流程。在得知極狐(GitLab)公司成立后,我們對極狐GitLab專業版的功能進行了深入的調研,并對于極狐GitLab本土化支持的實時性、專業支持能力和運維能力有了充分了解,最終選擇極狐GitLab專業版在燧原內部進行落地部署。在產品落地部署的同時, 極狐GitLab所提供的線上課程以及豐富詳細的說明文檔讓燧原科技的R&D和DevOps工程師能快速地學習、成長。”
星火燎原,優秀DevOps體系的試驗田
張文平表示:“ 極狐GitLab專業版的引入,從DevOps的運維角度,降低了運維的難度和復雜性,同時也提高了研發體系的可靠性和工程效率,從而進一步提高研發和運維人員的研發體驗。”
燧原科技十分清醒的認識到,DevOps體系大規模的改革并非一蹴而就,全面展開調整之前需要進行不斷的論證、嘗試和迭代,找到專屬于燧原科技的DevOps體系化之路,才是正確的打開方式。
張文平說:“我們使用極狐GitLab專業版目前是從部分團隊開始,期待未來可以大規模推廣到更多團隊。”
1. 提升研發效率,統一工具平臺
燧原科技亟待減少獨立工具種類以搭建統一的、高效的DevOps平臺以提升整體研發運維效率。
目前,燧原科技部分產品研發團隊已經完成在極狐GitLab中研發流程的遷移,經過改進后,實現了單一平臺的協作并且無需跳轉。同時本地就近服務節點Clone/Commit代碼,加速代碼拉取操作,同時與k8s 算力集群對接,簡化代碼提交、review流程的同時,實現CI pipeline的簡化和高效執行。
(資料來源:極狐GitLab使用情況展示)
隨著燧原科技的規模發展,公司研發團隊在物理位置上的分散,也出現了一些協作方面的挑戰,比如其他城市的團隊在檢出代碼時(極狐GitLab實例安裝在上海的服務器上),受限于帶寬和代碼庫大小,耗時較多。在采用了極狐GitLab GEO部署方式后,代碼檢出速度大大縮短,有效的提升了研發效率。
(資料來源:極狐GitLabGEO部署展示)
另一方面,燧原科技也正在使用極狐GitLab的Group/Subgroup等功能對項目做更細粒度的劃分管理,這也使得燧原科技對于源碼管理的安全性得到了有效的提升。
2. 優化生產成本,團隊效能倍增
張文平說:“燧原科技利用極狐GitLab專業版降低工具平臺的維護難度與成本,節約了運維時間成本,從而可以花更多精力專注在有創造性的工作內容上。”
燧原科技在前期僅僅將極狐GitLab作為源代碼管理工具,而整體的CI/CD是用Jenkins來完成的。眾所周知,Jenkins功能強大且較為穩定,但是大量的Jenkins插件維護對研發人員來講是不小的工作量,插件之間還有版本依賴。隨著燧原科技的項目復雜度和規模都在不斷擴大,導致Jenkins實例數量的持續增加,如何保證不同環境(開發、測試以及生產)的Jenkins實例的配置、插件版本等保持一致,同時在人力有限的情況下,能夠達成這樣的工作體量,成為張文平團隊需要考慮的下一個問題。
另外一方面,Jenkins支持多種語言來完成CI/CD,如 Shell,Groovy,Python 等。往往負責CI/CD編排和負責業務研發的員工是兩個團隊,這在無形中會增加溝通成本,阻礙DevOps的高效運行。
(資料來源:極狐GitLabPipeline流程展示)
當燧原科技開始使用極狐GitLab + 極狐GitLab CI 的方式后,開發人員可以通過查看極狐GitLab CI的語法來完成CI/CD的編排,這樣就省去了無窮無盡的各類插件更新和實例維護,同時 CI/CD 編排團隊的額外溝通成本也得到有效控制。
3. 更好的用戶體驗,推動快速落地
研發運維的工具需要創新,使用更具創新性的DevOps平臺,提升員工工作體驗,減少繁瑣的重復和等待,可以幫助提高員工的工作效率。
對于 研發人員來講,改變現有的研發習慣,擁抱新的變化是需要過程的。張文平認為:“逐步培養研發人員使用更新、更高效的研發運維工具非常重要。一個好產品,肯定具有一定的用戶粘性,研發人員一旦感受新工具、新平臺帶來簡潔、方便、高效的特性和改變,他們將會樂意接受并融入。”
未來可期,打造更安全的DevOps體系
張文平認為:“任何生產力工具的落地,都需要一個迭代過程,我們對極狐GitLab在很多方面都有期待和想法,未來我們會在極狐GitLab中探索更多功能的使用,并在合適的時間點進一步完善體系的搭建,例如集成極狐GitLab內置的安全功能等。”
成立3年,高歌猛進。燧原科技以行業黑馬的姿態在AI芯片領域開疆拓土。在近期活動中,燧原科技打出了“算力普惠之智,芯片強國之夢”的口號,這背后需要其搭建迭代更快、效率更高、能力更強的數字化基礎設施體系,來支撐更長遠的發展。未來,極狐(GitLab) 會持續提供高質量、高品質的產品與服務助力燧原科技早日實現“芯片強國之夢”。
-
人工智能
+關注
關注
1794文章
47642瀏覽量
239681 -
智能制造
+關注
關注
48文章
5611瀏覽量
76464 -
AI芯片
+關注
關注
17文章
1904瀏覽量
35163 -
devops
+關注
關注
0文章
116瀏覽量
12052 -
燧原科技
+關注
關注
0文章
126瀏覽量
8381
發布評論請先 登錄
相關推薦
評論