首次正式亮相國際級會(huì)議的AI同傳,騰訊翻譯君不僅僅代表了自己,還代表了整個(gè)AI智能翻譯業(yè)界。近幾天AI同傳遭遇社會(huì)嘲笑,對此,騰訊翻譯君負(fù)責(zé)人李學(xué)朝,訊飛胡郁有話說。
這幾天又有一個(gè)AI火了。
沒錯(cuò),我們說的是在2018年博鰲論壇擔(dān)任同聲傳譯的騰訊同傳。
這個(gè)事件讓人想起了2017年“3·15晚會(huì)”打假人臉識別,讓人臉識別技術(shù)一夜走紅,也讓眾多人臉識別公司躺槍。一年后的今天,公眾對人臉識別的接受度已經(jīng)明顯提升,技術(shù)在不斷發(fā)展,人臉識別的商業(yè)化應(yīng)用在不斷產(chǎn)生。
當(dāng)時(shí),人臉識別公司云從科技用了題為“大勢所趨,豈會(huì)因噎廢食”的評論文章來表態(tài),315晚會(huì)上的討論,從一定程度上折射出公眾對以人臉識別為代表的新興人工智能技術(shù)的擔(dān)憂。不過,任何新技術(shù)在剛剛萌芽時(shí),都難免存在不完善的地方。而這,也將是AI同傳技術(shù)將會(huì)延續(xù)的歷程。
AI同傳,首次登上國際級會(huì)議的舞臺
2018年4月9日,博鰲亞洲論壇開幕,騰訊CEO馬化騰靜靜地發(fā)了一條朋友圈。
“新嘗試,多包涵。”
2018是博鰲論壇舉辦的第17年,這屆會(huì)議在技術(shù)上最大的不同,就是正式啟用AI作為同傳。承擔(dān)這個(gè)任務(wù)的,就是騰訊同傳,它代表了所有的AI同傳產(chǎn)品,首次站在了國際級會(huì)議的舞臺上供世人檢驗(yàn)。
這次騰訊翻譯君將聯(lián)合微信智聆(“騰訊同傳”),為博鰲論壇的開幕式及部分核心論壇提供同聲傳譯支持,包括同傳雙語內(nèi)容會(huì)議現(xiàn)場投屏、同傳內(nèi)容手機(jī)小程序查看、翻譯結(jié)果語音收聽、同傳記錄回放等,服務(wù)的論壇主題涵蓋亞洲經(jīng)濟(jì)預(yù)測、未來的生產(chǎn),全球化的“下半場”、新一輪技術(shù)革命等領(lǐng)域。
這次任務(wù)重要性高(首次在開幕式及部分主論壇現(xiàn)場使用機(jī)器同傳,一般都是人工和機(jī)器都有,以免在這些重要的場合機(jī)器出問題沒辦法救場)、難度高(首次公開支持討論型會(huì)議,事先拿不到講稿,全靠臨場應(yīng)對),開放程度也很高(支持多渠道查看和回放,包括小程序)。如果這顯示不了騰訊的技術(shù)實(shí)力,那么至少,充分展示了騰訊的技術(shù)自信。
“這次AI同傳的會(huì)議難度與可能出現(xiàn)壞的翻譯例子,我們在會(huì)前都有預(yù)期。騰訊同傳這套方案在博鰲之前已經(jīng)歷公司內(nèi)外部近百場實(shí)戰(zhàn),技術(shù)持續(xù)升級,而且我們?yōu)椴椧沧隽顺浞值臏?zhǔn)備,并用往屆博鰲的視頻進(jìn)行回放測試驗(yàn)證,才拿出來呈現(xiàn)。“騰訊翻譯君負(fù)責(zé)人李學(xué)朝告訴新智元:“博鰲創(chuàng)新選擇AI同傳并篩選決定用我們,給了我們很大鼓勵(lì),也體現(xiàn)出博鰲對創(chuàng)新的接受度。”
壞的翻譯例子確實(shí)出現(xiàn)了,而公眾和技術(shù)圈的反應(yīng),可能比騰訊自己預(yù)期的,稍稍猛烈一點(diǎn)。
掉鏈子和擺烏龍
根據(jù)公眾號AI前線報(bào)道,本屆博鰲亞洲論壇首次啟用AI為現(xiàn)場嘉賓提供同傳服務(wù),僅僅一天,騰訊翻譯君“掉鏈子”的消息就在網(wǎng)上散播開來。
“一帶一路”被翻譯成“一條公路和一條腰帶”等不恰當(dāng)表述。但是,關(guān)于這個(gè)翻譯問題,騰訊官方給出了回應(yīng),這里暫且不表,看看你能不能看出什么端倪。
反應(yīng)最大的,當(dāng)然是受AI同傳沖擊最大的翻譯界,有人慶幸,也不乏自嘲,“飯碗終于暫時(shí)保住了”。
從事翻譯的知乎用戶“翻一姐”道出了一部分翻譯人士的心聲。來源:AI前線
此外,還有消息傳出,騰訊翻譯團(tuán)隊(duì)不得不現(xiàn)場請求人類譯員來救場。
對此,騰訊翻譯君團(tuán)隊(duì)回應(yīng)稱這是一個(gè)“烏龍”:一直忙不迭的精心備考,哪有時(shí)間去請外援。
騰訊翻譯君團(tuán)隊(duì)官方回應(yīng),外界提及的邀請人工同傳是烏龍事件
騰訊官方回應(yīng):確實(shí)出現(xiàn)了錯(cuò)誤,答錯(cuò)了幾道題
騰訊翻譯君官方也就本次一些翻譯案例的技術(shù)問題進(jìn)行了解讀,表示“面對博鰲亞洲論壇復(fù)雜的語言環(huán)境和高大上的專業(yè)內(nèi)容”,騰訊同傳“確實(shí)出現(xiàn)了錯(cuò)誤”,“答錯(cuò)了幾道題”。
首先是以下流傳最廣的小程序截圖,騰訊方面將其稱之為“大面積單詞無意義重復(fù)、大小寫及字符混亂”現(xiàn)象。
出現(xiàn)這個(gè)問題,主要是中英雙語切換頻率的問題。當(dāng)聲源在兩種語言之間不斷轉(zhuǎn)換時(shí),后臺中、英文識別引擎就會(huì)同時(shí)開始工作,這會(huì)導(dǎo)致兩種識別引擎互相“掐架”,而翻譯結(jié)果卻只能選擇一種語言進(jìn)行輸出,再加上對嘉賓每個(gè)語氣詞也做了精準(zhǔn)的啊啊啊翻譯,導(dǎo)致引發(fā)錯(cuò)誤。
另一個(gè)需要承認(rèn)的錯(cuò)誤是下圖中出現(xiàn)的“for for for × n”現(xiàn)象。
出現(xiàn)這種情況,主要是包括神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在內(nèi)的深度學(xué)習(xí)算法,在原理上或多或少都有一定不確定性,在特定的情況下有一定的概率引發(fā)翻譯偏差。
嘉賓演講內(nèi)容中出現(xiàn)了口語中常見的重復(fù)內(nèi)容,比如“for for for for”、 “that’s that’s that” ,相當(dāng)于中文的“嗯嗯嗯嗯”“那個(gè)那個(gè)那個(gè)”,而翻譯引擎恰好放大了這個(gè)重復(fù),導(dǎo)致了翻譯結(jié)果出現(xiàn)錯(cuò)誤。
最后,對于上文提到的“一帶一路”翻譯,騰訊翻譯君的錯(cuò)誤也情有可原。騰訊方面表示,從直播截屏可以看出,發(fā)言者說的是“the road and belt”,而“一帶一路”的正確說法應(yīng)該是“the belt and road”,順序不同,這才導(dǎo)致機(jī)器翻譯按照字面意思進(jìn)行解釋了。
“對固定的詞組,AI同傳可以準(zhǔn)確翻譯發(fā)言者正確的表達(dá),但是如果發(fā)言者的表達(dá)有偏差,機(jī)器翻譯的準(zhǔn)確度就要大打折扣。”騰訊翻譯君團(tuán)隊(duì)告訴新智元。
后期重新驗(yàn)證,當(dāng)提供正確表述時(shí),騰訊翻譯君給出了正確的翻譯(右圖)
AI同傳:人工智能的圣杯
同聲傳譯被譽(yù)為人工智能的圣杯,因?yàn)檫@項(xiàng)任務(wù)需要極高的認(rèn)知能力,就連人類也需要大量的訓(xùn)練和學(xué)習(xí),付出艱苦卓絕的努力才能掌握。
在口譯釋意派學(xué)者塞萊斯科維奇和勒代雷寫的書《釋意翻譯》中,他們將口譯描述一個(gè)涉及意義理解、詮釋和言語轉(zhuǎn)化的三角過程。在口譯過程當(dāng)中,口譯員需要理解源語言的意思,找到目標(biāo)語言中具有相同含義的解釋,并將其重新表達(dá)出來。而源語言的“意思”,是由說話者的聲音所產(chǎn)生的語言涵義(linguistic meaning)和口譯員自己對這一涵義進(jìn)行的認(rèn)知補(bǔ)充構(gòu)成。
口譯三角模型。來源:譯聚網(wǎng)
塞萊斯科維奇提出了“口譯三角模型”的假設(shè):口譯是一個(gè)三元過程:首先對源語言進(jìn)行聆聽,然后感知理解話語的意義,之后是對目標(biāo)語言中所獲意義進(jìn)行重新表達(dá),這也是口譯中最重要的階段。顯然,口譯的過程不是直截了當(dāng)?shù)模窍取袄斫狻焙蟆爸匦卤磉_(dá)”,是一個(gè)有不同階段的連續(xù)過程。
一般而言,人類口譯員是兩人一組工作,一個(gè)人口譯時(shí),另一個(gè)人負(fù)責(zé)支援,比如查詢文件和專業(yè)術(shù)語,跟蹤前文提到的內(nèi)容。口譯要求高度的專注力,極其耗費(fèi)腦力,因此每30分鐘就會(huì)換人。良好的工作也取決于配合。
此次騰訊AI同傳解決方案由兩部分組成:騰訊翻譯君+微信智聆。
其中,微信智聆團(tuán)隊(duì)成立于2011年,致力于開發(fā)語音人工智能技術(shù),包括語音識別,語音合成,聲紋認(rèn)證,語音喚醒,遠(yuǎn)場陣列拾音等領(lǐng)域。目前公布的語音識別正確率可達(dá)到97%。
騰訊翻譯君在2016年成立,是由騰訊MIG內(nèi)部孵化的一個(gè)項(xiàng)目。騰訊翻譯君與微信智聆結(jié)合成為騰訊同傳是在2017年。
李學(xué)朝介紹說,博鰲亞洲論壇上實(shí)際的同傳實(shí)現(xiàn)原理是,微信智聆把人聲識別為文字,騰訊翻譯君再把文本翻譯成目標(biāo)語言,再通過語音合成進(jìn)行播報(bào)。
語音識別、機(jī)器翻譯,單獨(dú)拆開看,都已經(jīng)出現(xiàn)了超越人類的結(jié)果。
2016年9月14日,微軟語音團(tuán)隊(duì)在產(chǎn)業(yè)標(biāo)準(zhǔn) Switchboard 語音識別基準(zhǔn)測試中,實(shí)現(xiàn)了對話語音識別詞錯(cuò)率(word error rate, 簡稱WER)低至6.3%的突破 ,創(chuàng)造當(dāng)時(shí)該領(lǐng)域內(nèi)錯(cuò)誤率最低紀(jì)錄。一個(gè)月后的10月18日,他們進(jìn)一步將詞錯(cuò)率降低至 5.9%,首次達(dá)成與專業(yè)速記員持平而優(yōu)于絕大多數(shù)人的表現(xiàn)。這被認(rèn)為是人工智能領(lǐng)域 2016年最大的突破性進(jìn)展之一。
2017年,IBM和微軟團(tuán)隊(duì)再次先后將語音識別的詞錯(cuò)率降低至5.1%。如今,以智能音箱為代表,語音識別的商業(yè)化應(yīng)用也迎來了一個(gè)爆發(fā)期。
機(jī)器翻譯的拐點(diǎn)則發(fā)生在2016年底。谷歌宣布推出商用的谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)(GNMT),采用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)技術(shù),大幅提升機(jī)器翻譯的水平,最高將翻譯準(zhǔn)確率提高到 87%。這件事情的意義在于“商業(yè)部署”,意味著神經(jīng)機(jī)器翻譯技術(shù)投入大規(guī)模實(shí)用。
在剛剛過去的2018年3月,微軟在機(jī)器翻譯領(lǐng)域取得突破。他們研發(fā)的機(jī)器翻譯系統(tǒng)在通用新聞報(bào)道的中譯英測試集上,達(dá)到了人類專業(yè)譯者水平。這是首個(gè)在新聞報(bào)道的翻譯質(zhì)量和準(zhǔn)確率上媲美人類專業(yè)譯者的翻譯系統(tǒng)。微軟的這個(gè)系統(tǒng)也采用了神經(jīng)機(jī)器翻譯技術(shù)。
至于語音合成,舉一個(gè)比較有代表性的例子。2016年,谷歌DeepMind提出了一個(gè)叫做WaveNet的模型,采用深度學(xué)習(xí)方法,能夠產(chǎn)生十分逼真的聲音語音,聽起來感覺與真人幾乎無異。在訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)會(huì)提取語音的基本結(jié)構(gòu),輸入給定文本后,訓(xùn)練好的WaveNet模型會(huì)生成相應(yīng)的語音波形,一次一個(gè)樣本,從而實(shí)現(xiàn)比其他方法更高的精度。
2017年底,這項(xiàng)技術(shù)的改進(jìn)版,被應(yīng)用到了谷歌的智能助理Google Assistant(英語和日語)中。2018年3月,谷歌云平臺推出云端 TTS(Cloud Text-to-Speech)功能,用戶在文字轉(zhuǎn)語音過程中,可以選擇由 DeepMind 的 WaveNet 生成的高保真音頻。
WaveNet深度生成模型,從頭開始創(chuàng)建單個(gè)波形,每次生成一個(gè)樣本,每秒生成16000個(gè)樣本,各個(gè)聲音之間無縫轉(zhuǎn)換。
2018年3月,微軟語音語言團(tuán)隊(duì)負(fù)責(zé)人、微軟全球技術(shù)院士黃學(xué)東在接受新智元采訪時(shí)表示,微軟最新機(jī)器翻譯系統(tǒng)“既是技術(shù)上的突破,也是工程上的突破,是技術(shù)和工程的完美結(jié)合,只有把過程中的每一件事情都做好,才能得到這樣的結(jié)果。”
“接下來我們要做的,就是把語音識別和機(jī)器翻譯結(jié)合到一起,在同聲傳譯上取得突破。”
訊飛胡郁有話說
2016年,在烏鎮(zhèn)舉行的第三屆世界互聯(lián)網(wǎng)大會(huì)上,搜狗公司的CEO王小川就搜索引擎的未來發(fā)表了演講。在演講過程中,他演示了顯示在屏幕上的實(shí)時(shí)機(jī)器翻譯(如圖所示),包括中文語音轉(zhuǎn)錄和英文翻譯。
王小川說:“未來,同聲傳譯員可能失業(yè)!”
然而諷刺的是,如上圖所示,根據(jù)中文轉(zhuǎn)錄翻譯成的英文似乎沒有意義,看起來像機(jī)械地逐字翻譯產(chǎn)生的亂碼。
王小川給出了一個(gè)在安靜的環(huán)境中搜狗語音識別技術(shù)可以達(dá)到的效果,也談到了目前的“短板”:安靜環(huán)境下可以實(shí)現(xiàn) 95%的準(zhǔn)確度,甚至97%,但一旦出現(xiàn)噪音,例如當(dāng)兩個(gè)人同時(shí)說話時(shí),準(zhǔn)確度會(huì)大大下降。
機(jī)器似乎不知道如何識別噪音,今天的學(xué)術(shù)界也還沒有找到解決辦法。畢竟,對于理解語氣的細(xì)微差別、諷刺、暗示、情感等等,人類的智能是不可或缺的,所有這些都超出了依賴大數(shù)據(jù)喂的、基于規(guī)則的算法。
科大訊飛執(zhí)行總裁胡郁表示,這次騰訊AI同傳的翻譯結(jié)果,再次說明現(xiàn)在機(jī)器翻譯離最終的理想情況,從核心技術(shù)上來說確實(shí)是有一定距離的。
“這些差距,是要通過好的產(chǎn)品設(shè)計(jì)來規(guī)避的。”胡郁說:“同時(shí),這也證明了語音翻譯絕對不是簡簡單單把語音識別文本、翻譯、語音合成這幾步簡單組合在一起,就能得出一個(gè)很好的方案。”
要從問題的本質(zhì)出發(fā),真正理解翻譯所面臨的情況,設(shè)計(jì)真正將語音識別、文本翻譯和語音合成融合在一起的、新的問題定義方式,才有可能解決這些對人類看來比較容易,是對機(jī)器來說很難的問題。
“其實(shí)我覺得這不僅僅是騰訊的問題,也是現(xiàn)在所有做翻譯,包括科大訊飛在內(nèi),面臨的最大的挑戰(zhàn)。”胡郁說。
他還表示,從另外一個(gè)觀點(diǎn)來看,當(dāng)我們將很多技術(shù)應(yīng)用在實(shí)際場景中時(shí),不能再簡單的利用互聯(lián)網(wǎng)思維,用那些免費(fèi)服務(wù),用一開始效果比較差的產(chǎn)品來再逐步改進(jìn)的方式來進(jìn)行,因?yàn)楹芏鄷r(shí)候在一開始,直接使用效果不好的人工智能,會(huì)導(dǎo)致大家對人工智能的懷疑,我們整個(gè)行業(yè)經(jīng)不起這種錯(cuò)誤的傷害。
“要把翻譯服務(wù)的體驗(yàn)做好主要就是兩個(gè)方面的因素,一個(gè)方面的就是整體的算法和數(shù)據(jù),也就是我說的源頭核心技術(shù)系統(tǒng)創(chuàng)新要是最好的。另外一個(gè)呢,就是在這樣的情況下,要用很多的產(chǎn)品創(chuàng)新、微創(chuàng)新和應(yīng)用創(chuàng)新來解決。”
“但是,我覺得最重要的,是要重新定義人工智能翻譯的過程,絕對不能簡簡單單理解成,語音識別加文本翻譯加語音合成這樣功能的直接的疊加。”胡郁說:“我們正在嘗試重新定義這個(gè)問題,希望從根本上解決這樣的潛在的風(fēng)險(xiǎn)。只有加強(qiáng)機(jī)器對它所在,進(jìn)行事情的理解能力,才有可能把這些問題徹底解決掉。”
“比如說機(jī)器要知道,那些口頭的,各種嗯嗯啊啊的東西,不是需要翻譯的內(nèi)容,這樣自然而然就不會(huì)產(chǎn)生這樣的錯(cuò)誤。”
小米旗下生態(tài)鏈企業(yè)香蕉出行的于亮表示,現(xiàn)場環(huán)境復(fù)雜,實(shí)驗(yàn)室環(huán)境永遠(yuǎn)無法模擬真正的現(xiàn)場環(huán)境。像口語、拾音、噪聲、回聲等問題,是實(shí)驗(yàn)室很難真實(shí)模擬的。“這些問題和挑戰(zhàn)不是騰訊同傳的問題,而是整個(gè)行業(yè)要面臨和解決的問題,暴露出的問題越多,反而是好事。開拓、迭代、共享、包容也是互聯(lián)網(wǎng)的精神。”
任重道遠(yuǎn),繼續(xù)前行
2017年中旬,牛津大學(xué)面向機(jī)器學(xué)習(xí)研究人員做了一次大規(guī)模調(diào)查,調(diào)查的內(nèi)容是他們對 AI 進(jìn)展的看法。這些研究人員預(yù)測,未來10年,AI 將在許多活動(dòng)中超過人類,具體預(yù)測見下表:
其中,紅框標(biāo)出了在復(fù)雜環(huán)境中進(jìn)行AI同傳的幾項(xiàng)。機(jī)器學(xué)習(xí)研究人員的預(yù)測,相關(guān)技術(shù)超越人類還有7年的時(shí)間(預(yù)測是2017年中旬進(jìn)行的)。
李學(xué)朝表示,有許多網(wǎng)友拿騰訊同傳跟人工同傳比較,這是不準(zhǔn)確的,將騰訊同傳與其他AI同傳方案相比才有可比性。
也有媒體發(fā)出AI同傳替代人工同傳的觀點(diǎn),之前也看到同行有“同聲傳譯終結(jié)者”的理念,“我們并不認(rèn)為AI同傳要消滅人工,而是認(rèn)為兩者是共同存在的,適用不同場景。”李學(xué)朝說。
“我更贊同AI同傳與人工同傳可以更好的人機(jī)協(xié)同,發(fā)揮各自所長幫助參會(huì)者更好理解多語會(huì)議內(nèi)容。”
技術(shù)不斷發(fā)展,AI同傳與人類口譯員并肩的那一天,終會(huì)到來。
-
AI
+關(guān)注
關(guān)注
87文章
31155瀏覽量
269482 -
人工智能
+關(guān)注
關(guān)注
1792文章
47442瀏覽量
238996 -
騰訊
+關(guān)注
關(guān)注
7文章
1659瀏覽量
49489
原文標(biāo)題:博鰲AI同傳遭熱議!騰訊翻譯君負(fù)責(zé)人李學(xué)朝、訊飛胡郁有話說
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論