三百六十行,行行出狀元。在眾多行業(yè)中有這么一個行業(yè)迎來了一位“新人”——微軟小冰。
作為一款人工智能伴侶虛擬機器人的小冰,去了歌唱界。不僅發(fā)表個人單曲,還參與作詞作曲,經(jīng)歷了五次迭代的微軟小冰,現(xiàn)在已經(jīng)成為一個會作曲會唱歌的全能型藝人。
▌作曲寫詩寫詞樣樣精通
2017 年,微軟出版了一本由小冰原創(chuàng)的詩集《陽光失了玻璃窗》,這是第一部 100% 由人工智能創(chuàng)造的詩集。在寫詩之后,小冰還創(chuàng)作不同類型的文體,填詞,唱歌,發(fā)表個人單曲等。
據(jù)介紹,小冰創(chuàng)作的基本原理有兩大塊,一塊是他需要學習前人的作品,包括上千位詩人的詩集、上千萬行歌詞等等。第一步,訓練深度神經(jīng)網(wǎng)絡(luò)的模型;第二步,有了一定的模型之后,需要給她一個觸發(fā)源,工程師們稱為創(chuàng)作沖動。
創(chuàng)作沖動有不同的方式,給出一張圖片或文字,基于圖片里的元素或文字內(nèi)容的理解去創(chuàng)作,例如知乎上的海量回答,學習知乎預(yù)料大數(shù)據(jù)作為觸發(fā)源,基于一個訓練好的模型,生成對應(yīng)的歌詞。
值得注意的是,在小冰發(fā)布的單曲中,還聽到有模擬真人呼吸的聲音,據(jù)微軟(亞洲)互聯(lián)網(wǎng)工程院微軟小冰首席語音科學家欒劍表示,主要是因為考慮到大眾的習慣,沒有換氣可能會讓人聽著感覺很累,因為有些時候發(fā)燒友會跟著哼唱,沒有呼吸換氣的地方,會覺得不太舒服。
在技術(shù)上實現(xiàn)呼吸換氣主要分為兩個模塊,第一個模塊,首先要預(yù)測什么地方會有呼吸的聲音,第二個模塊,怎么樣把呼吸的聲音生成出來。
關(guān)于第一個,人類有兩種呼吸,一個是這個歌到了一個休止符,在語意的地方需要一個停頓;還有一種,這首歌可能節(jié)奏很快,中間沒有任何的停頓,這時候人類的歌手必須要在某個地方換一下氣,不然的話,人類的肺活量支撐不了。
關(guān)于換氣的聲音,其實換氣的聲音有點類似于人類的聲音,它就是一種沒有聲帶振蕩的聲音,我們可以把他作一種中文語言系統(tǒng)以外的一種新的發(fā)言的因素去建模。
▌最早實現(xiàn)全雙工對話
在 2016 年的 9 月份,微軟小冰就開始真正的給人類打電話,到目前為止,打了超過 60 萬通電話。在通話過程中會增加“嗯”、“啊”這樣的語氣詞,給人的感覺更像真人,并且做到了全雙工對話,可以互相打斷,真正做到雙方互動的聊天。
另外,小冰運用的領(lǐng)域是一個很開放的領(lǐng)域。她實際上跟用戶在溝通的過程中話題,內(nèi)容,都是可以雙方提出來的。不僅是小冰拋出一個話題,就限定在這個話題里聊,而是隨時可以根據(jù)對方拋出的新話題去聊。
據(jù)欒劍介紹,小冰這種開放領(lǐng)域的聊天難度上會更大一些。首先上下文大篇幅的語義理解在業(yè)界和學術(shù)界都是一個很難的課題,比如在寫詩的時候,有時候的用詞比較古怪,或者語句之間不太通順,但實際上可能存在有一種潛在的邏輯。
也遇到了一個技術(shù)的瓶頸,語意理解像是一個黑盒子,這個黑盒子,會收入一些內(nèi)容也會反饋一些內(nèi)容,反饋的內(nèi)容給人的感覺好像是理解了,但實際上他是不是真正理解了,是沒有辦法判斷的。
人也是這樣,在實際對話過程中,更多的是先給個輸入,然后給個輸出,再根據(jù)這個輸出來判斷他是不是真正理解了,但實際上這里面是有一定的套路存在的,你去判斷他是不是理解,可能是很困難的,因為里面并沒有一個那么直觀的東西存在。
第一層,運算智能,像算盤一樣;
第二層,感知智能,能夠感知到一個物品是什么;現(xiàn)在大多數(shù)的 AI,包括語音、圖象等還是停留感知智能層次上;
第三層,認知智能;像人一樣,知道是什么,還知道為什么這樣,還可以推理,這個層次較難。
說到底,AI 的創(chuàng)造力和人類的創(chuàng)造力之間有什么差別呢?
微軟(亞洲)互聯(lián)網(wǎng)工程院人工智能創(chuàng)造事業(yè)部副總經(jīng)理袁晶表示,人的左腦更加偏向于計算;人的右腦是偏向創(chuàng)造力,發(fā)散思維,現(xiàn)在希望用計算的方式,讓 AI 用左腦的方式去模擬右腦的行為。
換句話講,這種創(chuàng)造在人里面只有頂尖的藝術(shù)家才能干,但是放到 AI 上,就相當于可以簡化這個學習和訓練的過程了。
相當于說,讓她去擬合人類創(chuàng)作者的創(chuàng)作過程,并且能以這樣的能力去幫助普通人去做一些創(chuàng)造,因為每個人都想去做一些創(chuàng)作的行為,只不過說限于自己的能力,AI 能夠做到相當于他的助手,幫助普通人,享受創(chuàng)作的樂趣。比如她可以和你一起為你新出生的孩子、或你的戀人寫首情詩,也可能為你爸爸的生日創(chuàng)作一首歌曲等。
▌未來小冰將嘗試更多內(nèi)容領(lǐng)域的創(chuàng)作
袁晶表示,未來會漸漸讓小冰去嘗試往內(nèi)容生成的領(lǐng)域做一些探索,可能半年一年,很多別的公司或者機構(gòu),也會跟隨這個趨勢去做類似這樣的事情。
在袁晶看來,人工智能在內(nèi)容領(lǐng)域有一些新的能力或者突破可能將會是未來的一個方向,所以也會往這個方向不斷的去做一些嘗試,包括聲音、文字、圖像等三個方面,AI 未來會充當協(xié)助角色,幫助人類的創(chuàng)作者,去更好更快更高效的創(chuàng)作內(nèi)容。
首先 AI 創(chuàng)造的成本是很低的,要比人類的創(chuàng)造成本低很多。比如讀故事,當我們找配音員去讀這個故事,他可能要付出一定的成本,但是如果聲音的模型訓練好了之后可以大批量的生成,成百上千個小時的大量的用戶,所以他的成本會攤薄到很低。
小冰的聲音技術(shù)里面增加了一些韻律和風格的變換,使得她可以去模仿人類創(chuàng)作者,在各種場景下面做各種不同的演藝。而機器人可以非常真實的模擬人聲,讓很多人有各種各樣的顧慮。
欒劍表示,小冰聲音的生成和使用的過程都是嚴格受控的,將來提供服務(wù)的時候,模型本身,以及合成的引擎本身,另外,小冰之前給人類打電話已經(jīng)打了60萬個,小冰都會先申明身份,明確告訴用戶我們是微軟小冰。微軟設(shè)有專門的人工智能的委員會,防止人類利用人工智能技術(shù)去做傷害他人和社會的事情。
-
機器人
+關(guān)注
關(guān)注
211文章
28614瀏覽量
207901 -
人工智能
+關(guān)注
關(guān)注
1793文章
47601瀏覽量
239509
原文標題:微軟小冰作詞又作曲,網(wǎng)友:要出道的節(jié)奏嗎?
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論