“這是百度大腦歷史上最具跨越性的升級。”
近日的百度開發者大會上,百度首席技術官王海峰正式發布百度大腦5.0,并在下午的百度大腦分論壇,公布了其在AI算法、計算架構和應用場景各方面的新進展。
提出流式多級的截斷注意力模型SMLTA
升級后的百度大腦5.0更加強調AI技術的標準化、自動化和模塊化。
百度語音技術部高級總監高亮介紹,識別方面,百度提出流式多級的截斷注意力模型SMLTA,這是國際上首次實現局部注意力建模超越整句的注意力模型,也是國際上首次實現在線語音大規模使用注意力模型。
SMLTA在大幅提升識別速度的同時,也提高了識別準確率。在輸入法有效產品相對準確率提升15%,音箱有效產品相對準確率提升20%。
合成方面,針對現階段面臨風格遷移、音色模擬和情感擬人的三大挑戰,百度推出語音合成技術Meitron,可以將語音中的音色、風格、情感等要素映射到不同的子空間,在使用時,不同要素可以任意組合,靈活的控制合成語音的風格。同時降低語言合成門檻,僅需20句話就可以制作一個人的專屬聲音。
發布針對遠場語音交互打造的芯片——百度鴻鵠芯片
對于落地應用正在端側呈現出巨大需求,百度大腦語音團隊研發出一款針對遠場語音交互打造的芯片——百度鴻鵠芯片。
鴻鵠芯片的設計遵循“軟件定義芯片”的全新設計思路。該芯片采用雙核HiFi4架構,2.8M大內存,臺積電40nm工藝,在此硬件規格上,100mw左右平均工作功耗,即可支持遠場語音交互核心的陣列信號處理和語音喚醒能力。同時,按照車規級標準打造使鴻鵠芯片可滿足極嚴格的需求,將為車載語音交互,以及智能家居等場景帶來更大想象力。鴻鵠芯片流片的同時,即實現了量產。
交互升級包含一體化人機交互系統和大場景物理世界交互系統。簡單而言,一體化人機交互系統是人與機器、虛擬環境的自然交互與融合,該系統適用于實現AR特效的直播、小視頻、特效小程序等場景,已應用于百度多款視頻App。
大場景物理世界交互系統是將視覺定位與AR技術突破性結合,實現大范圍的虛擬信息與物理世界的精準疊加,從而建立起AI時代全新的交互系統。目前,軟硬件結合可以滿足應用場景更高效的視覺計算,以及更低延時的體驗,同時能保護數據隱私。百度視覺方面的軟硬件結合主要聚焦于模型壓縮平臺PaddleSlim、多模態FaceID開發組件以及軟硬件一體解決方案AI相機三部分。FaceID覆蓋設備量已超1200萬臺。
視覺語義化平臺更新至2.0
視覺語義化平臺2.0更新了許多先進的感知技術,也讓機器人技術實現新突破。
百度三維視覺首席科學家楊睿剛介紹,機器人就是一個智能體,除了感知技術,智能體需要決策和動作相關的技術,實現從環境感知到主動感知。目前,百度研究的智能體技術主要集中在自動駕駛Apollo、工程機械和服務機器人三大方面。
上午主論壇中王海峰現場與一只機械臂“茶博士”進行了互動對話,還完成了傳統的長嘴壺倒茶工作,其背后依靠的正是服務機器人方案。
基于百度3D視覺,機器人可以對茶杯的位置進行檢測和追蹤。通過機器人運動規劃和控制,機械臂可以對工作空間進行碰撞檢測,避開障礙物;實時規劃運動后,可自動生成倒茶軌跡;隨后,感知水流變化,,王海峰在演示過程中故意改變了茶杯位置,茶博士也準確識別出了相關位置并成功續茶。
迎接5G時代,發布新一代AI計算架構
百度大腦5.0不僅包含算法層面創新,在算力方面也實現重大突破。近年來,算法對算力需求增長近300,000倍,而芯片的計算性能僅提升30倍,兩者之間存在巨大鴻溝。
百度副總裁侯震宇為現場觀眾分享了百度新一代AI計算架構。面對AI計算的挑戰,需要能夠從端到端來提供AI計算能力,這要求計算系統從舊有的對海量數據處理能力、對IO高峰值的追求,轉變為滿足AI訓練功能方面IO密集、計算密集、通信密集的需求,和AI推理功能方面大吞吐和低延遲的需求。
侯震宇認為,面對即將到來的AI+5G時代,計算將無處不在。真正的計算會發生在設備(Device)、邊緣(Edge)和云(Cloud)中,因而D-E-C場景將會是接下來需要重點研究的問題;與此同時,包括芯片之間、系統之間、設備之間的互相連接,將幫助不同場景中的計算連接在一起,產生更大的計算力。
-
芯片
+關注
關注
456文章
51155瀏覽量
426325 -
百度
+關注
關注
9文章
2277瀏覽量
90641 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239688 -
智能語音
+關注
關注
10文章
789瀏覽量
48854
原文標題:百度大腦5.0實現史上最大升級,發布遠場語音交互芯片“鴻鵠”
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論