前言
隨著AI技術(shù)的爆發(fā)和發(fā)展,智能語(yǔ)音技術(shù)已逐漸成為人們生活中最普遍的AI交互技術(shù)之一。
事實(shí)上,語(yǔ)言作為維系人與人之間情感和交際的重要紐帶,一直以不同的承載形式為人們所用。例如在搜狗以語(yǔ)言為核心的AI技術(shù)布局中,從中文、多方言和外國(guó)語(yǔ)種的語(yǔ)音識(shí)別轉(zhuǎn)寫(xiě)、AI同傳翻譯,再到個(gè)性化的語(yǔ)音合成和變聲……在人們生活中語(yǔ)言應(yīng)用的方方面面,都不乏搜狗的身影。
如今,搜狗作為國(guó)產(chǎn)AI+語(yǔ)音領(lǐng)域顛覆傳統(tǒng)語(yǔ)音行業(yè)領(lǐng)先者之一,其AI語(yǔ)音技術(shù)具有高識(shí)別率、高準(zhǔn)確率、低時(shí)延和多模態(tài)融合等優(yōu)勢(shì),已廣泛應(yīng)用到教育、商務(wù)、旅游等多個(gè)應(yīng)用場(chǎng)景,并已深入你我身邊的千家萬(wàn)戶(hù)中。
其中,搜狗語(yǔ)音識(shí)別準(zhǔn)確率最高可達(dá)98%,語(yǔ)音日均請(qǐng)求量已達(dá)十億級(jí),尤其在錄音筆行業(yè),其搜狗輸入法通過(guò)AI賦能,也已為市場(chǎng)超90%的錄音筆提供接入服務(wù)。
金準(zhǔn)產(chǎn)業(yè)研究專(zhuān)家發(fā)現(xiàn),在搜狗AI技術(shù)體系一次次引領(lǐng)行業(yè)創(chuàng)新,顛覆傳統(tǒng)行業(yè)生態(tài)的背后,是搜狗AI算法平臺(tái)和深度學(xué)習(xí)平臺(tái)Eva搭建起的“骨架”。而AI平臺(tái)和深度學(xué)習(xí)框架的背后,強(qiáng)大的算力平臺(tái)也助力其構(gòu)筑起了語(yǔ)音領(lǐng)域的強(qiáng)大的競(jìng)爭(zhēng)力和領(lǐng)先性。
一、國(guó)內(nèi)AI語(yǔ)音行業(yè)先鋒,語(yǔ)音處理日請(qǐng)求量超十幾億次
2020年開(kāi)年以來(lái),新型冠狀肺炎病毒疫情一直影響著國(guó)內(nèi)市場(chǎng)的復(fù)工和發(fā)展,但陳偉帶領(lǐng)的搜狗AI交互技術(shù)團(tuán)隊(duì)在科研領(lǐng)域的技術(shù)應(yīng)用和研究,并沒(méi)有受到影響而減緩。
搜狗在AI領(lǐng)域始終堅(jiān)持的就是以語(yǔ)言為核心。搜狗AI交互事業(yè)部團(tuán)隊(duì),核心解決的問(wèn)題則是圍繞自然交互領(lǐng)域,讓人機(jī)交互更加自然,尤其是多模態(tài)的交互。
實(shí)際上,搜狗以語(yǔ)言為核心的AI技術(shù)主要布局自然交互和知識(shí)計(jì)算兩大賽道。
搜狗AI主要通過(guò)語(yǔ)音和圖像的感知、對(duì)話(huà)、翻譯等來(lái)實(shí)現(xiàn)人與計(jì)算機(jī)之間的交互;另一方面,知識(shí)計(jì)算則更多地圍繞基于海量的網(wǎng)絡(luò)數(shù)據(jù)或已有數(shù)據(jù),通過(guò)搜索和自然語(yǔ)言處理(NLP),從中抽取出真正的知識(shí)以解決問(wèn)題。
從2012年起,隨著搜狗開(kāi)始投入智能語(yǔ)音技術(shù)的研發(fā),其AI團(tuán)隊(duì)規(guī)模已發(fā)展至將近1000人。
而在搜狗AI體系構(gòu)建的背后,有一個(gè)名為Eva的搜狗深度學(xué)習(xí)平臺(tái)則發(fā)揮了關(guān)鍵作用。
在深度神經(jīng)網(wǎng)絡(luò)建立之前,搜狗的每一項(xiàng)技術(shù)如語(yǔ)音合成和語(yǔ)音識(shí)別,是兩個(gè)獨(dú)立的方向。但在Eva構(gòu)建之后,從底層的模型架構(gòu)到算法設(shè)計(jì)等方面都形成了一個(gè)端到端的有機(jī)整體。
通俗地說(shuō),就是它能夠?qū)⒄Z(yǔ)音、圖像、NLP等技術(shù)集成在一起,為研發(fā)人員統(tǒng)一提供深度學(xué)習(xí)模型的訓(xùn)練。
由于最初的模型和算法并不復(fù)雜,搜狗一開(kāi)始的深度神經(jīng)網(wǎng)絡(luò)仍然依靠CPU來(lái)運(yùn)行。但隨著數(shù)據(jù)的增長(zhǎng)和算法復(fù)雜度的提升,模型訓(xùn)練的數(shù)據(jù)規(guī)模十分龐大,CPU早已無(wú)法滿(mǎn)足深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求。
例如,在語(yǔ)音模型訓(xùn)練過(guò)程中,動(dòng)輒需要十幾萬(wàn)小時(shí)的數(shù)據(jù)。就算用數(shù)十塊英偉達(dá)GPU來(lái)進(jìn)行訓(xùn)練,也需要數(shù)月的時(shí)間才能完成。
因此,隨著深度神經(jīng)網(wǎng)絡(luò)并行計(jì)算需求的增加,以及模型愈發(fā)復(fù)雜,搜狗從2013年后開(kāi)始逐漸探索用GPU來(lái)對(duì)模型進(jìn)行訓(xùn)練,以持續(xù)迭代線(xiàn)上的AI服務(wù)性能。據(jù)了解,基于英偉達(dá)強(qiáng)大的GPU算力支持,目前搜狗語(yǔ)音的日均請(qǐng)求量已達(dá)十億以上。
二、英偉達(dá)GPU+超大規(guī)模推理平臺(tái),助力搜狗AI語(yǔ)音兩大創(chuàng)新方向
而在搜狗強(qiáng)大AI交互技術(shù)過(guò)程中,英偉達(dá)T4和Tensor RT為搜狗實(shí)現(xiàn)算力突破,創(chuàng)新行業(yè)提供了強(qiáng)勁的技術(shù)支持。
在陳偉看來(lái),英偉達(dá)GPU在訓(xùn)練和推理兩個(gè)方向都提供了強(qiáng)大的算力支持。
一是面向線(xiàn)下的模型訓(xùn)練,需要GPU具有充分強(qiáng)大的算力和足夠的顯存,以驅(qū)動(dòng)模型基于大數(shù)據(jù)的訓(xùn)練,如目前使用的Tesla V100和P40;二是面向線(xiàn)上的推理和部署,這對(duì)GPU顯存和算力的需求相對(duì)較小,適合對(duì)大規(guī)模海量計(jì)算機(jī)進(jìn)行部署,如Tesla P4和T4。
其中,T4 GPU專(zhuān)為優(yōu)化和提升AI性能而打造,配備了英偉達(dá)Turning Tensor核心,能夠在實(shí)現(xiàn)高效算力的同時(shí),進(jìn)一步支持服務(wù)器實(shí)現(xiàn)AI訓(xùn)練和推理的橫向擴(kuò)展。
T4 GPU具有三大性能優(yōu)勢(shì)。一是其能夠優(yōu)化可擴(kuò)展服務(wù)器,能效高出CPU的50倍以上,大大降低運(yùn)營(yíng)成本;二是它具有多精度計(jì)算特性,可實(shí)現(xiàn)FP32、FP16到INT8以及INT4精度的突破性AI性能,其訓(xùn)練性能達(dá)到CPU的9.3倍,推理性能超36倍;三是它能夠加速深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的訓(xùn)練、推理、視頻解碼和虛擬桌面,并支持所有AI框架和網(wǎng)絡(luò)模型,進(jìn)一步提高大規(guī)模部署的效用。
此外,搜狗在使用GPU推理的過(guò)程中,還利用了英偉達(dá)超大規(guī)模推理平臺(tái)Tensor RT,以加速深度神經(jīng)網(wǎng)絡(luò)的推理。
據(jù)金準(zhǔn)產(chǎn)業(yè)研究團(tuán)隊(duì)了解,Tensor RT超大規(guī)模推理平臺(tái)是英偉達(dá)專(zhuān)為全球開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家們開(kāi)發(fā),其配備了英偉達(dá)T4 GPU,能夠加速圖像、語(yǔ)音、翻譯和推薦系統(tǒng)等廣泛領(lǐng)域的神經(jīng)網(wǎng)絡(luò)。同時(shí),它還支持加速業(yè)內(nèi)各大主流的深度學(xué)習(xí)框架,例如TensorFlow、PyTorch、MXNet、Chainer和Caffe2。
好的算法和龐大的數(shù)據(jù),一定需要好的運(yùn)算平臺(tái)。英偉達(dá)的GPU和AI推理平臺(tái)為搜狗AI技術(shù)體系的構(gòu)建,提供了批量運(yùn)算或并行運(yùn)算的能力,并逐漸形成良好的開(kāi)發(fā)生態(tài)。
三、T4加持,語(yǔ)音識(shí)別準(zhǔn)確率高達(dá)98%
如今,搜狗在自然交互和知識(shí)計(jì)算兩個(gè)AI戰(zhàn)略方向上,布局了語(yǔ)音、計(jì)算機(jī)視覺(jué)、對(duì)話(huà)、翻譯、問(wèn)答多個(gè)領(lǐng)域,并在搜狗分身、搜狗同傳、搜狗變聲等多個(gè)差異化賽道持續(xù)領(lǐng)跑,對(duì)算力需求進(jìn)一步提升。
隨著搜狗語(yǔ)音識(shí)別、多模態(tài)識(shí)別(語(yǔ)音+唇語(yǔ))、OCR、機(jī)器翻譯、語(yǔ)音合成、圖像生成等應(yīng)用場(chǎng)景和需求的擴(kuò)展,它們對(duì)算力資源的需求是根據(jù)不同任務(wù)而定的。搜狗的多模態(tài)識(shí)別服務(wù),是將語(yǔ)音和唇語(yǔ)的兩個(gè)模態(tài)融合后再進(jìn)行識(shí)別,而這一多模態(tài)感知的方式也使得模型對(duì)運(yùn)算的要求更加復(fù)雜。
金準(zhǔn)產(chǎn)業(yè)研究團(tuán)隊(duì)認(rèn)為,AI語(yǔ)音領(lǐng)域?qū)\(yùn)算的需求只會(huì)越來(lái)越大。盡管近幾年語(yǔ)音識(shí)別顛覆性的創(chuàng)新和突破越來(lái)越少,但現(xiàn)有技術(shù)還在持續(xù)迭代中,模型本身的學(xué)習(xí)能力也將不斷加強(qiáng)。
與此同時(shí),隨著5G、IoT技術(shù)的推動(dòng),大數(shù)據(jù)也在急劇爆發(fā)和增長(zhǎng),這對(duì)于AI公司來(lái)說(shuō)無(wú)疑意味著更復(fù)雜的模型和更龐大的訓(xùn)練數(shù)據(jù),從而對(duì)GPU的算力提出了更高要求。
在搜狗的語(yǔ)音轉(zhuǎn)寫(xiě)應(yīng)用中,語(yǔ)音識(shí)別準(zhǔn)確率是影響用戶(hù)體驗(yàn)和應(yīng)用的重要因素之一。
金準(zhǔn)產(chǎn)業(yè)研究團(tuán)隊(duì)了解到,目前搜狗語(yǔ)音輸入法在業(yè)內(nèi)具有領(lǐng)先的中英自由說(shuō)能力、遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別解決方案,以及業(yè)界首創(chuàng)的語(yǔ)音修改能力。例如,搜狗語(yǔ)音輸入法能識(shí)別日韓英法等10余種外語(yǔ)和粵川等10種方言,支持語(yǔ)音增強(qiáng)和個(gè)性化交互,同時(shí)其語(yǔ)音識(shí)別準(zhǔn)確率最高為98%,日均語(yǔ)音輸入調(diào)用次數(shù)突破十億次。
實(shí)際上,搜狗語(yǔ)音識(shí)別準(zhǔn)確率的提升,主要依靠算力、深度學(xué)習(xí)技術(shù)和語(yǔ)料數(shù)據(jù)訓(xùn)練。在算力方面,搜狗從2017年起開(kāi)始采用英偉達(dá)Tesla P4來(lái)加速和優(yōu)化語(yǔ)音識(shí)別模型。
早在2017年,搜狗通過(guò)P4的并行計(jì)算推理速度,將語(yǔ)音識(shí)別請(qǐng)求效率提升50%。在之后的兩年時(shí)間里,隨著Cuda升級(jí)至9.1以及算力的持續(xù)優(yōu)化,搜狗的語(yǔ)音識(shí)別請(qǐng)求效率不斷提升。2019年11月,搜狗將P4升級(jí)至T4后效率再度實(shí)現(xiàn)突破,提升20%。
伴隨著引進(jìn)T4 GPU,其語(yǔ)音識(shí)別峰值日均調(diào)用量也從2017年的3.2億次,迅速增長(zhǎng)到了2019年第三季度的8.3億次,有效實(shí)現(xiàn)了對(duì)海量識(shí)別請(qǐng)求的處理,進(jìn)一步強(qiáng)化了自身語(yǔ)音識(shí)別技術(shù)的潛力,為行業(yè)創(chuàng)新和變革提供了新的發(fā)展方向。
四、T4優(yōu)化WaveRNN聲碼器,推動(dòng)源技術(shù)從學(xué)界落地產(chǎn)業(yè)
除了語(yǔ)音識(shí)別之外,語(yǔ)音合成亦是檢驗(yàn)語(yǔ)音技術(shù)公司實(shí)力的標(biāo)準(zhǔn)之一。
搜狗語(yǔ)音合成支持男女多風(fēng)格和中英俄多語(yǔ)種共數(shù)十種音色,同時(shí)系統(tǒng)只需用戶(hù)上傳5分鐘的音頻,即可生成該說(shuō)話(huà)人的音色,甚至能實(shí)現(xiàn)說(shuō)話(huà)人的風(fēng)格遷移。
技術(shù)方面,搜狗的語(yǔ)音合成技術(shù)基于WaveNet和WaveRNN聲碼器研發(fā),但由于WaveNet運(yùn)算復(fù)雜度較高,因此它最初很難實(shí)現(xiàn)搜狗線(xiàn)上實(shí)時(shí)生成語(yǔ)音的服務(wù)。
為了優(yōu)化WaveRNN聲碼器,搜狗一方面在WaveRNN源技術(shù)論文的基礎(chǔ)上進(jìn)行了大量的研究工作,并為了實(shí)用化修改大量代碼結(jié)構(gòu);另一方面則基于T4對(duì)WaveRNN進(jìn)行優(yōu)化,并定制開(kāi)發(fā)實(shí)現(xiàn)的gemm算子,進(jìn)一步降低了語(yǔ)音合成的實(shí)時(shí)解碼率。
搜狗通過(guò)T4的優(yōu)化性能,也進(jìn)一步打破學(xué)界與產(chǎn)業(yè)之間的遷移壁壘,真正實(shí)現(xiàn)國(guó)內(nèi)語(yǔ)音行業(yè)首創(chuàng),讓W(xué)aveRNN聲碼器技術(shù)更好地服務(wù)AI語(yǔ)音行業(yè)的創(chuàng)新和發(fā)展。
不僅如此,隨著搜狗AI交互技術(shù)開(kāi)始涉及更多圖像相關(guān)的應(yīng)用,如虛擬人、OCR、手寫(xiě)識(shí)別、唇語(yǔ)識(shí)別、圖像以及視頻生成等,其深度學(xué)習(xí)平臺(tái)對(duì)高可用、并行訓(xùn)練服務(wù)能力的需求亦進(jìn)一步提升。
例如,在搜狗AI平臺(tái)對(duì)外開(kāi)放的過(guò)程中,會(huì)有大量的用戶(hù)涌入,基于平臺(tái)進(jìn)行訓(xùn)練并定制自己的模型,而在這一過(guò)程中,搜狗AI平臺(tái)需要在任務(wù)之間做好排隊(duì)調(diào)度,并充分考慮GPU的負(fù)載均衡等問(wèn)題。
因此從平臺(tái)層面看,搜狗的服務(wù)會(huì)通過(guò)AI開(kāi)放平臺(tái)借助深度學(xué)習(xí)的能力,去幫助更多的用戶(hù)實(shí)現(xiàn)定制化AI的可能性。
值得一提的是,隨著英偉達(dá)Tensor RT7的推出,目前搜狗也開(kāi)始在部分任務(wù)上嘗試使用該平臺(tái)。金準(zhǔn)產(chǎn)業(yè)研究團(tuán)隊(duì)預(yù)測(cè),未來(lái),隨著搜狗AI技術(shù)和業(yè)務(wù)的迭代和創(chuàng)新,也會(huì)將Tensor RT7逐步引入到更多任務(wù)中。
五、高算力GPU助推語(yǔ)音交互和AI計(jì)算平臺(tái)未來(lái)發(fā)展
如今,搜狗在AI語(yǔ)音聽(tīng)寫(xiě)方面,已與愛(ài)國(guó)者、紐曼、索尼、萬(wàn)城四家錄音筆行業(yè)頭部企業(yè)成立AI創(chuàng)新聯(lián)盟,聯(lián)合搜狗輸入法為市場(chǎng)超90%的錄音筆提供接入服務(wù)。
除此之外,搜狗通過(guò)語(yǔ)音+唇語(yǔ)的多模態(tài)識(shí)別技術(shù)研發(fā)唇語(yǔ)識(shí)別系統(tǒng),嘈雜環(huán)境下識(shí)別準(zhǔn)確率提升40%以上,同時(shí)搜狗還通過(guò)搜狗翻譯、合成和識(shí)別等技術(shù),在跨語(yǔ)言交流、機(jī)器同傳等多個(gè)應(yīng)用領(lǐng)域拿下行業(yè)領(lǐng)先的成績(jī)。
未來(lái),隨著AI交互技術(shù)應(yīng)用范圍的不斷擴(kuò)展,搜狗也將針對(duì)搜狗AI開(kāi)放平臺(tái)、多模態(tài)技術(shù)融合等方面進(jìn)行升級(jí)。
搜狗將借助AI開(kāi)放平臺(tái)加速推動(dòng)AI核心能力對(duì)外開(kāi)放;語(yǔ)音識(shí)別和語(yǔ)音合成兩方面,包括個(gè)性化語(yǔ)音合成、語(yǔ)音變聲、多模態(tài)交互、手寫(xiě)識(shí)別、多模態(tài)同傳等技術(shù)也將帶來(lái)更多的體驗(yàn)創(chuàng)新和升級(jí)。
從內(nèi)部看,搜狗也將真正打通各個(gè)研究團(tuán)隊(duì)在GPU資源上的共享能力,并基于平臺(tái)為公司提供一個(gè)相對(duì)通用的、統(tǒng)一的一套深度學(xué)習(xí)的并行訓(xùn)練能力。
而這些由內(nèi)而外的技術(shù)升級(jí),也將對(duì)GPU性能產(chǎn)生更大的需求。
不僅僅是對(duì)GPU算力需求的增強(qiáng),同時(shí)也需要GPU能夠?yàn)槲覀兲峁└S富的配套服務(wù)。英偉達(dá)已逐漸打造了一個(gè)良好的AI生態(tài),而搜狗作為生態(tài)的一份子,同樣也希望它能夠在生態(tài)上進(jìn)一步支持搜狗的自身業(yè)務(wù),繼續(xù)助力搜狗AI技術(shù)的創(chuàng)新發(fā)展。
結(jié)語(yǔ):AI交互技術(shù)應(yīng)用全面爆發(fā),GPU助力催化行業(yè)創(chuàng)新
語(yǔ)言的多模態(tài)應(yīng)用,不知不覺(jué)間已成為人們生活中習(xí)以為常的技術(shù),一句簡(jiǎn)單的語(yǔ)音識(shí)別轉(zhuǎn)寫(xiě)、一次跨語(yǔ)種的同傳翻譯……這些都是AI交互技術(shù)應(yīng)用在全面爆發(fā)的過(guò)程中,為人們生活帶來(lái)的便利。
而在這些便利技術(shù)背后所催生的巨大算力需求,也為包括搜狗在內(nèi)的許多企業(yè)提出了新的技術(shù)挑戰(zhàn)。而搜狗通過(guò)借助強(qiáng)大的GPU計(jì)算平臺(tái),不僅突破了龐大AI計(jì)算負(fù)載給AI語(yǔ)音帶來(lái)的算力瓶頸,亦為搜狗在AI語(yǔ)音領(lǐng)域的創(chuàng)新發(fā)展提供了重要的算力支持。
面對(duì)海量的數(shù)據(jù)分析請(qǐng)教,以及比以往更復(fù)雜的模型訓(xùn)練。在這一背景下,AI技術(shù)公司如何開(kāi)拓并尋找更優(yōu)質(zhì)的技術(shù)支撐,對(duì)自身的基礎(chǔ)設(shè)施進(jìn)行更好的優(yōu)化和提升,亦是每一家公司在AI落地和應(yīng)用過(guò)程中需要考量的。
責(zé)任編輯:gt
-
gpu
+關(guān)注
關(guān)注
28文章
4768瀏覽量
129216 -
AI
+關(guān)注
關(guān)注
87文章
31490瀏覽量
269875 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3842瀏覽量
91677
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論