美國時間 5 月 7 日,谷歌 2019 年 I/O 開發者大會在山景城總部開幕,為期三天。
在開幕式上,谷歌宣布了諸多亮點,比如更貼近用戶的搜索功能,更強大的 AI 與語音助手,內置在安卓系統中的語音轉文字功能,新款 Pixel 3a 和 3a XL 中端手機,Nest Hub Max 智能家居設備,還有安卓 Q 系統更新等等。
“To Be Helpful”是整場大會的主題之一。因此,無論是產品演示,還是演講者,幾乎全都從安全、隱私和實用的理念出發,透露出與往屆 I/O 大會不同的務實風格。
圖 | 谷歌AI領軍人 Jeff Dean: 為每一個人打造一個更有幫助的谷歌
即使是最后登場的谷歌 AI 領軍人 Jeff Dean,也是以現有研究成果出發,強調了 BERT 模型在自然語言處理領域取得的建樹,以及 AI 技術在健康和環境領域的應用潛力,并未帶來令人眼前一亮的驚艷機器學習新成果。
不過從另一個角度來看,這或許才是科技本身應有的樣子:一項高科技,無論初見有多驚艷,最終只有成為像空氣一般的存在,讓我們幾乎察覺不到它,卻又依賴于它,才能讓我們開始享受它的價值,進而真正地享受生活。
這也是谷歌 2019 年 I/O 開發者大會帶給我們的啟示。
圖 | 谷歌I/O大會開場
“黑科技”開場,奠定務實風格
一開場,谷歌就遵循一貫風格,直接亮出了人們喜聞樂見的“黑科技”。
副總裁 Aparna Chennapragada 率先介紹了谷歌的最新視覺技術:巧妙地整合攝像頭和增強現實(AR)技術,強化谷歌搜索結果的互動性和實用性。
她在谷歌上搜索出的二維圖片,可以直接轉換成三維模型,并通過攝像頭放在真實環境中。
無論你搜索的是人體骨骼,一雙鞋,還是一條鯊魚,都沒問題,只要谷歌制作了 3D 模型,就可以通過攝像頭,展示在現實場景中,供用戶查看效果。它們不僅可以活動,還能夠接受放大、縮小、運動和轉移等操作指令。
可以肯定的是,3D 化的搜索結果不僅僅停留在有趣這一階段,它可以給用戶帶來更直觀的使用體驗和感受,加深對物體運作機制的理解程度。
想象一下,如果你想知道心臟長什么樣子,除了看到實物,有什么東西能比一個會跳動的、可以放大縮小和分解的立體模型更加形象的呢?尤其是它可以隨時隨地出現在任何地方,AR 技術的價值進一步得到了挖掘。
圖 | 搜索出的大白鯊以 AR 形式出現在演講臺上
除了強化搜索結果,谷歌還通過 Google Lens 程序,讓手機攝像頭變得更有價值。
如果你新到一家餐館,不知道有什么特色菜,沒關系,只要拿出手機,打開 Google Lens 程序,對準菜單,它就可以根據已有點評,標注出大多數人推薦的特色菜。
如果你去法國旅游,卻不會法語,看不懂路標,沒關系,只要拿出手機,打開 Google Lens 程序,對準路標,它就可以識別上面的法語,直接翻譯成中文和英語等十多種語言,還可以直接朗讀出來,讓語言不再成為交流和旅游的障礙。
如果你想看菜譜學做菜,沒問題,Google Lens 配合食譜制造商,錄制預先制作的烹飪視頻,只要將鏡頭對準菜譜文字,就會有實際演示視頻跳出來,為你展示如何操作。
這些都是非常貼近日常生活的實用功能,如果實際操作效果與演示效果相符,那么將極大地方便我們的生活。
圖 | Google Lens可以翻譯多種語言的不同標志
谷歌在現場播放了一段視頻,講述了印度的試點項目。視頻中,一名不識字的印度母親依靠著 Google Lens 程序,終于可以以聽的方式理解書上的內容,孩子的作業,路上的標識,餐館的菜單等等,最后無需別人的幫助,單獨完成很多任務。
雖然在普通人看來,她完成的都是些瑣碎小事,比如去 ATM 取錢和預訂火車票,但對于她來說,這就像打開了生活的另一扇門。
由此可見,谷歌貫徹的“To Be Helpful”的理念,意味著技術應該能夠真正幫助有需要的人提高生活質量。
圖|印度母親使用Google Lens幫助自己看懂包裝盒上的字
谷歌最后強調,這種技術結合了自然語言處理、機器視覺、以及谷歌 20 多年來的搜索信息才能實現,但代碼只有 100 KB 左右,所以無需高端設備就可以運行。
這項功能將加入 Google Go 應用中。對視覺障礙者,以及不會外語的人來說,這無疑是獲取信息的新方式。目前,Google Go 已經能支持數十種語言,售價為 35 美元。
不得不說,谷歌選擇用直觀的視覺技術作為開場,非常機智。不僅契合主題,突出了實用性,還成功塑造出眼前一亮的感覺,調動了觀眾的積極性。但是稍顯可惜的是,這些演示或許是整場大會最有看點的部分了。
更強大、更懂你的AI語音助手
在去年的 I/O 大會上,谷歌的語音助理技術推出新功能 Google Duplex,讓 AI 打電話預訂餐廳,因其聲調語氣相當逼真,接電話的人沒察覺,該技術一鳴驚人,但引起了一些爭議。
在今年的 I/O 大會上,谷歌也演示了新功能,包括一句話開啟駕駛模式和更先進的 Duplex on the web,也就是“Duplex 可以幫忙執行網頁上的任務”。
例如用戶可以呼出語音助理,要求它上網幫你預訂一臺車,然后語音助理就會進入租車網站,幫你填寫姓名、住址,甚至是偏好車型等信息,并要求你確認。
圖 | 語音助手幫你租車
它還利用知識圖譜來進行個人推薦。根據用戶的使用習慣,AI 能更好地理解用戶的語音指令,可以通過語音瞬間打開 App,并且可以使用連續的語音指令,而不需要每次都說出喚醒詞。比如 AI 可以追蹤一連串語音指令:打開地圖,播放音樂,打開相冊,搜索有動物的照片,發送給某人,它能根據一系列語音指令按順序完成相應動作。
谷歌認為此功能擁有很大的應用前景,并強調隨著深度學習的進展,把 AI 模型放置到移動裝置將是一種范式的轉換。他們希望可以把 100GB 的語音識別模型縮小到 0.5GB,并放在終端設備上,讓用戶更方便使用。
不過谷歌表示,目前該功能還在完善階段,預計今年晚些時間才會公布更多細節,并透露在今年晚些會推出新的 Pixel 手機。
安卓內置語音轉文字功能
作為一家以人性化為核心的公司,谷歌這次格外考慮到了聽覺或語言障礙人士,推出了 Live Caption(實時字幕)技術。
圖 | 實時字幕技術演示
該技術由循環神經網絡支持,可以把手機中的視頻和音頻內容實時轉化成文字,類似于微信的語音信息轉文字。
不過更重要的是,Live Caption 是原生存在于安卓系統中的功能,意味著它能夠契合所有的應用,適用于視頻聊天、電話、錄像,甚至是游戲中,而且使用全程可在設備端進行處理,不需要聯網,從而進一步保障用戶隱私。
對于普通人來說,如果不想外放語音,一副耳機就可以解決。但對于聽覺或語言障礙人士來說,這項功能可以發揮很大的作用,幫助他們更好地與人溝通。
在此基礎上,谷歌推出了 Project Euphonia,通過機器學習來了解語言障礙者的對話模式,來實現精準的語音轉寫。
安卓Q圍繞安全和隱私等優化
盡管谷歌有許多平臺,像是 Chrome,但安卓系統依舊是最重要、裝機量最大的那一個,目前全球已有超過 25 億臺安卓設備。
谷歌在今天也發布了最新安卓 Q Beta 3 版本,圍繞安全和隱私等核心問題進行優化,12 家 OEM 廠商的 21 個手機機種都可以升級,包括華為、小米、Vivo 等。
除了支持上述的 Live Caption 功能,安卓 Q Beta 3 還適配可折疊屏幕,游戲應用可以直接在兩種模式下無縫流暢轉換,并且加入了用戶期待已久的黑暗主題。
圖 | Q Beta 3 適配折疊屏
此外,谷歌還推出了其它新功能,比如 Focus Mode 專注模式,可以讓用戶暫時停止使用一些容易打擾人的應用;Smart Reply 功能,可以預測和提供智能回復建議,能夠通過任何應用快速發送回復;以及針對小孩的父母管理機制。
值得一提的是,安卓 Q 已經增加了 5G 網絡支持,為未來 OEM 廠商推出 5G 手機打下了基礎。
強調隱私保護,Nest Hub Max 誕生
智能家居一直是各家業者都想爭取的市場,Nest 是谷歌旗下專注智能家居的獨立團隊,已有家庭安全攝像頭和帶有顯示屏的 Home Hub 等智能家居產品。
圖 | 推出新版 Nest Hub Max
谷歌在大會上表示,智能家居必須非常重視用戶的隱私,并且宣布,將 Home Hub 更名為 Nest Hub,同時推出升級版 Nest Hub Max,裝有更大的 10 英寸顯示屏,直接與 Facebook Portal 和亞馬遜 Echo Show 等同類產品競爭。
谷歌強調,沒有用戶允許絕不會啟動攝像頭,另外拍下或錄下的數據只會存在終端上,并使用 FaceMatch 面部識別用戶,支持手勢操作。
屏幕較大的 Nest Hub Max 售價 229 元,現有的 Nest Hub 則降價 20 美元至 129 美元。
推出兩款Pixel,進軍中端智能手機市場
隨后谷歌帶來了兩款 Pixel 系列手機,Pixel 3a 與 Pixel 3a XL,售價分別是 399 美元和 479 美元,前者即日起開售,后者今年暑期上市。這也是谷歌首次推出中端智能手機。
圖 | 新款Pixel 3a售價399美元,即日發售
兩個機型在外觀上依然延續 Pixel 家族的特點,無劉海屏幕,后置單攝像頭,提升拍照質量主要靠搭載谷歌自研 Pixel Visual Core 圖像處理單元,還繼續使用后置指紋識別,保留有 3.5mm 耳機孔,一次充電可以支撐 30 小時,并且配有 Titan M 安全芯片,專門用來保護用戶隱私。
至于硬件配置,谷歌大會上并沒有給出詳細參數,但已有媒體爆出了比較可信的數據,其中 Pixel 3a 搭載高通驍龍 670 處理器,配備 4GB 內存+ 64GB 存儲,分辨率為 1080×2160 ;Pixel 3a XL 搭載高通驍龍 710 處理器,配備 4GB 內存+128GB 存儲,分辨率為 2220×1080。
相比 Pixel 3 的 799 美元售價,兩款中端手機的價格更加親民,這在一定程度上可以刺激目前較為疲軟的 Pixel 銷量,但隨著全球整體智能手機市場逐漸飽和,再加上谷歌在大會上暗示今年晚些時候將推出新 Pixel 高端機,它們究竟能夠為谷歌帶來多少收益還不得而知。
就像在剛剛過去的第一季度財報會議上,谷歌 CEO Pichai 表示的那樣,“在硬件之路上,谷歌還處于早期階段”。
Jeff Dean登場,壓軸的谷歌 AI
在大會的最后,谷歌 AI 領軍人物 Jeff Dean 壓軸登場,介紹了自己團隊一直以來的研究目標和方向。從推動計算機視覺的極限,到語音識別,他們研究的領域涵蓋生活中的方方面面。
圖 | Jeff 介紹谷歌AI 團隊的研究進展
在Jeff 看來,最讓他激動的AI技術進展是語言理解。
遵循這一思想,谷歌 AI 一直在努力提高計算機對語言的理解能力,希望有朝一日能媲美人類的水平。最新的研究成果就是自然語言處理領域大名鼎鼎的 BERT 模型(Bidirectional Encoder Representation from Transformers)。
BERT 模型突破了傳統 RNN 模型的限制,不再局限于單個關鍵詞詞義的理解,而是結合上下文分析語義,能夠在大段文字下更好地理解語境和整體內容。
該模型于 2018 年 11 月推出,直接刷新了自然語言處理任務的 11 項紀錄,同時啟發了多個研究團隊,后續衍生模型不斷刷新著新的紀錄。
谷歌團隊更是將其直接定義為:BERT 模型開啟了自然語言處理的新時代!
隨后,谷歌 AI 介紹了 AI for Social Good 項目,旨在將 AI 技術推廣到各個領域。
圖 | 谷歌用AI 檢測肺癌
他們將 AI 運用于醫療保健,建立了 CT 掃描圖預測模型,可以幫助檢測肺癌。他們還將 AI 運用在自然災害預測領域,建立了一個洪水預測模型,預測洪水會出現在何時何地。該模型結合了深度學習、衛星影像與以現實為基礎的情境模擬,并且會將信息共享給可能會受到影響的個人。
除此之外,谷歌的 AI for Social Good 項目還包括地震余震預測、全球漁業活動預測等等,都突顯出 AI 技術的實用價值。
圖 - 用 AI 模型預測地震余震
結語
最近一兩年,數據隱私和 AI 道德問題持續困擾著美國科技巨頭們,特別是用戶體量巨大、掌握海量數據的 Facebook 和谷歌。
上周的 Facebook F8 大會,扎克伯格三句話不離數據隱私保護,力求挽回形象,而在谷歌 I/O 大會開幕式上,我們似乎也感受到了谷歌的刻意“保守”。
去年,谷歌在大會上演示了 Google Duplex,讓 AI 打電話訂位,AI 模仿人類太成功,接聽電話的店員根本沒有察覺有異,不料卻引起外界憂心技術被用來欺騙人類。
隨后,谷歌遭人詬病的事一樁接著一樁,一下子員工聯名抗議用 AI 做軍事生意,導致云計算部門高管的離職潮,一下子又反對 AI 道德委員會的某些外部成員,使得該組織才成立一周就被迫解散。這讓曾經確立“AI 優先”戰略的谷歌不得不重新思考技術的發展走向和展示策略。
所以,今年的 I/O 大會在展示 AI 技術時,更多演示 AI 對于人類帶來正面效益的應用,塑造出一種“谷歌是你的好幫手”的感覺,例如幫助聽力或語言障礙人士更好地與世界溝通,在談論服務及硬件設備時,也不斷重申數據保護、攝像頭絕不會監視用戶等,深怕又被外界抓了小辮子。
或許正是因為如此,今年的大會才略顯平淡,少了曾經的驚艷。
但就像開頭所說,以創新力聞名的谷歌能帶來顛覆性技術突破固然令人興奮,可是相比于過分激進,轉型成為這樣一種幫手型角色,對于普通用戶、谷歌自身和社會發展來說,未嘗不是一件好事。
科技之于人類,本就應該扮演這樣的角色。
-
谷歌
+關注
關注
27文章
6173瀏覽量
105638 -
AI
+關注
關注
87文章
31155瀏覽量
269487
原文標題:谷歌發布最新視覺“黑科技”:搜索3D化,代碼僅100KB,無需高端設備即可運行
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論