電子發燒友報道(文/周凱揚)作為算法巨頭的谷歌,在AI時代發布了一系列AI產品,比如Gemini、Bard等。在AI行業日新月異快速迭代的局面下,即便是谷歌也需要加快開發速度,不斷更新其AI模型和應用。近日舉辦的谷歌I/O大會上,谷歌宣布全面進入Gemini時代,并發布了一系列與AI相關的更新。
對標ChatGPT-4o,谷歌發布Project Astra
相信本周ChatGPT-4o的演示,已經令不少人期待起這個支持視聽輸入的實時AI助手,谷歌也不甘示弱,發布了Project Astra的演示,展示了他們對于未來AI助手的構想。Project Astra基于Gemini模型打造,支持視頻和語音的輸入,通過連續的視頻幀編碼和先進的語音模型,谷歌得以更快地處理輸入信息。
相較其ChatGPT-4o更先進的是,谷歌的Project Astra還支持實時交互,比如在手機上圈選出實時視頻畫面中的一部分,讓AI助手提供描述等。不僅如此,Project Astra將視頻與語音輸入轉換成一連串的時間線事件,并緩存這些信息用于未來的高效回溯。
谷歌也對該項目未來的應用場景進行了構想,這些功能不僅可以用于手機端,更是可以用于AR眼鏡,為用戶提供交互式的AI助手體驗。谷歌在外媒的采訪中也證實,他們正在考慮為Project Astra打造新的AR眼鏡的構想。他們認為對于AR設備來說,Project Astra很有可能成為新一輪的殺手級應用。
安卓迎來新一輪AI功能更新
在這個AI重塑手機體驗的世代,而安卓作為全球用戶技術最大的智能手機系統,谷歌也希望能用AI帶去全新的設備交互方式。
圈選搜索解題 / 谷歌
自從在三星Unpacked大會上公布圈選搜索功能,谷歌已經為更多Pixel和三星設備加入了全屏翻譯等功能。在I/O大會上,谷歌宣布為圈選搜索加入作業輔助的功能,比如面對某些物理和數學應用題,圈選搜索不僅可以給出答案,還可以列出具體的解題過程。
安卓上的Gemini已經成為新一代的助手應用,借助生成式人工智能來提供創造力和效率,而未來幾個月內,谷歌將為其推送更新,可以在使用中的應用程序中喚醒,并將生成的圖片、文字等拖拽到其他應用上。
Gemini Nano / 谷歌
至于端側的Gemini Nano,同樣將在今年年末迎來升級,引入多模態支持。為了做到離線使用和保證用戶隱私,谷歌于去年底推出了Gemini Nano,而多模態的加入將引入對文本之外的視覺聲音支持。以語音反饋功能為例,對于盲人或弱視群體,在面對無標簽的圖片時,Gemini Nano賦能的語音反饋功能將提供更多細節的描述。
谷歌同樣借助Gemini Nano對語音的支持,引入了可選的防詐騙功能。通過在通話過程中檢測到與詐騙相關的對話模式,手機就會自動發出實時警報,比如要求緊急轉賬、提供銀行卡密碼等。因為這些保護措施都是在端側完成的,所以此類對話都是完全保密的,用戶無需擔心隱私泄露問題。
第六代TPU Trillium,性能與能效雙提升
在本屆I/O大會上,谷歌也宣布了AI基礎設施的升級,其TPU將迎來第六代產品,Trillium。相較TPU v5e,谷歌擴大了MXU(矩陣乘法單元)的大小,并提高了時鐘速度,使得Trillium單芯片的峰值計算性能實現了4.7倍的提升,能效提升67%。
同時谷歌還加倍了HBM內存的容量和帶寬,更大的內存容量和帶寬允許Trillium可以跑更多權重、更大KV緩存和更大規模的模型。谷歌稱下一代的HBM帶來了帶寬提升和能效提升,改善了大模型的訓練時間以及服務時延。
同樣加倍的還有片間互聯帶寬,這使得Trillium的擴展性大大加強,單個服務器Pod內可借助定制的光學ICI做到256個芯片互聯,再借助谷歌的Jupiter網絡擴展至數百個Pod互聯。
從第一代TPU開始,谷歌已經將這一加速硬件集成到其提供的各種軟件服務中,比如實時語音搜索、照片物體識別以及交互式語言翻譯等等,當然也包括了最新的Gemini、Imagen和Gemma等模型。除此之外,一些行業模型也將從TPU中受益,比如自動駕駛模型、藥物開發模型等。據谷歌預告,Trillium將于今年年末開放給谷歌云客戶。
Gemini和Gemma迎來全面迭代升級
除了上面提到的安卓端Gemini新功能外,Gemini模型本身也將迎來新一輪升級。在Gemini 1.5 Pro發布后不到半年,谷歌就再次對其進行了升級,如今的Gemini 1.5 Pro將支持兩百萬Token的上下文窗口。
除此之外,谷歌還加強了Gemini 1.5 Pro的代碼生成、邏輯推理和多輪對話交互能力。不僅音頻和圖像的理解能力也得到了進一步加強,不少特殊用例的模型響應控制也得到了提升,比如不同的對話角色和響應風格。無論是使用API的開發者還是谷歌云用戶,現在都可以申請這一升級。
為了響應用戶對低時延和低成本模型的要求,谷歌還推出了輕量版的Gemini 1.5 Pro:Gemini 1.5 Flash。Gemini 1.5 Flash專門針對高流量、高頻率的任務進行了優化,支持100萬的Token上下文窗口,而且支持文本、圖片、語音和視頻的混合輸入。
開放模型Gemma同樣迎來了升級,首先是新推出的視覺語言模型PaliGemma,其靈感來源自PaLI-3,支持圖片和文本作為輸入,可以回答有關圖片的問題,并提供詳細信息和上下文,可以用于對圖片或短視頻添加說明、對象檢測等。其主要優勢在于支持多模態理解,而且可以針對各種視覺語言任務進行微調,也有專門面向研究的版本PaliGemma-FT,可對特定的研究數據集進行微調。
Gemma 2性能測試對比 / 谷歌
此外還有下一代Gemma模型的更新,Gemma 2。Gemma 2是一個270億參數的大模型,得益于全新的架構,在性能和效率上均實現了突破。相較于Meta的Llama 3 70B模型,其規模只有一半不到,卻可以實現與之相近的性能。從預訓練階段的測試成績來看,Gemma 2僅僅略微遜色于Llama 3,快于Grok-1。除了針對英偉達GPU做了優化外,Gemma 2還可以高效地運行在單個TPU主機上,進一步降低了用戶的部署成本。目前Gemma 2依然還在預訓練階段,預計將于今年六月推出。
寫在最后
谷歌通常會將年度I/O開發者大會的舞臺用于發布Android系統,以及Pixel智能手機的下一代更新。但從今年的發布內容來看,谷歌已經全面轉向了AI產品的開發。無論是Android 15的下一個Beta版本,還是Pixel 8a,都只是被短短提及而已。由此可以看出,谷歌已經將下一輪軟硬件的革新全面押注在了AI上,未來我們將見證一個圍繞AI開發產品矩陣的新谷歌崛起。
-
谷歌
+關注
關注
27文章
6172瀏覽量
105629 -
AI
+關注
關注
87文章
31133瀏覽量
269455 -
ChatGPT
+關注
關注
29文章
1564瀏覽量
7814
發布評論請先 登錄
相關推薦
評論