上周日,第24屆 ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING(知識發(fā)現(xiàn)和數(shù)據(jù)挖掘會議,以下簡稱 KDD)在倫敦正式召開。KDD 是數(shù)據(jù)挖掘領(lǐng)域的頂級學(xué)術(shù)會議,全球的華人學(xué)者在這一研究領(lǐng)域有著舉足輕重的角色,近幾年國內(nèi)也在不斷孕育出實(shí)力強(qiáng)勁的研究團(tuán)隊(duì)。
據(jù)統(tǒng)計,今年 KDD 接收論文近 300 篇,而華人與中國作者的論文占比達(dá) 近 64.5%。在 KDD 2018 大會上揭曉的獎項(xiàng)中,由中國科學(xué)技術(shù)大學(xué)、蘇州大學(xué)與微軟小冰團(tuán)隊(duì)合作的論文《XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music》(《小冰樂隊(duì):流行音樂的旋律與編曲框架》 )獲得了 Research Track 最佳學(xué)生論文。接下來給大家分享這篇論文重點(diǎn)內(nèi)容的解讀。
小冰樂隊(duì):流行音樂的旋律與編曲生成框架
摘要
隨著音樂創(chuàng)作知識的發(fā)展和近期需求的增加,越來越多的公司和研究機(jī)構(gòu)開始研究音樂的自動生成。然而,以前的模型在應(yīng)用于歌曲生成時具有局限性,因?yàn)樗枰珊途幥4送猓S多與歌曲質(zhì)量相關(guān)的關(guān)鍵因素,如和弦進(jìn)行和節(jié)奏型,都沒有得到很好的解決。特別是,如何確保多軌音樂和諧的問題仍未得到充分探索。為此,這篇論文聚焦在流行音樂生成,其中考慮了和弦和節(jié)奏對旋律生成的影響以及音樂編曲的和諧。提出了一個端到端的旋律和編曲生成框架,稱為小冰樂隊(duì),它生成一個旋律軌道,再生成不同的樂器來進(jìn)行伴奏。具體來說,通過設(shè)計了一個基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG)來產(chǎn)生帶有和弦進(jìn)行的旋律。然后,提出了一種多樂器聯(lián)合編曲模型(MICA),它使用多任務(wù)學(xué)習(xí)來進(jìn)行多軌音樂編曲。最后,通過對現(xiàn)實(shí)世界的數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn), 結(jié)果證明了小冰樂隊(duì)的有效性。
貢獻(xiàn)
本文的貢獻(xiàn)總結(jié)如下:
提出了一種端到端的多軌音樂生成系統(tǒng),包括旋律和編曲。
基于音樂知識,提出用和弦進(jìn)行來指導(dǎo)旋律和通過節(jié)奏型來學(xué)習(xí)歌曲的結(jié)構(gòu)。然后,使用節(jié)奏和旋律交叉生成方法進(jìn)行音樂生成。
在解碼器層的每一步使用其他任務(wù)狀態(tài)開發(fā)多任務(wù)聯(lián)合生成網(wǎng) 絡(luò),這提高了生成質(zhì)量并確保了多軌音樂的和諧。
通過提供的大量實(shí)驗(yàn),我們的系統(tǒng)與其他模型表現(xiàn)更好的性能,人工評估也得到一致的結(jié)論。
工作與方法
小冰樂隊(duì)的相關(guān)工作可以分為兩類,即音樂生成和多任務(wù)學(xué)習(xí)。
最近,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)通過端到端方法被應(yīng)用于音樂生成,解決一些問題。雖然已經(jīng)對音樂創(chuàng)作進(jìn)行了廣泛的研究,但還沒有工作針對流行音樂的特性來進(jìn)行研究。對于流行音樂的產(chǎn)生,以前的作品不考慮和弦進(jìn)行和節(jié)奏型。而且,和弦進(jìn)行通常引導(dǎo)旋律生成,節(jié)奏型決定該歌曲是否適合于歌唱。此外,流行音樂也應(yīng)保留樂器特性。最后,和諧在多軌音樂中起著重要作用,但在之前的研究中并未得到很好的解決。
將小冰樂隊(duì)與幾個相關(guān)模型進(jìn)行比較,結(jié)果顯示在下表中。
而多任務(wù)學(xué)習(xí)多任務(wù)學(xué)習(xí)通常用于共享特征的相關(guān)任務(wù),因?yàn)閺囊粋€任務(wù)中學(xué)習(xí)的特征可能對其他任務(wù)有用。在以前的工作中,多任務(wù)學(xué)習(xí)已成功應(yīng)用于機(jī)器學(xué)習(xí)的所有應(yīng)用,從自然語言處理到計算機(jī)視覺。
接下來重點(diǎn)為大家介紹小冰樂隊(duì)的模型與方法。首先形式化定義音樂生成問題,然后介紹基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG)的單軌音樂的結(jié)構(gòu)和技術(shù)細(xì)節(jié),以及用于多軌音樂的多樂器聯(lián)合編曲模型(MICA)。
▌問題定義:由于每個流行音樂都有特定的和弦進(jìn)行,我們考慮在給定和弦進(jìn)行條件下生成流行音樂的場景。因此,音樂生成任務(wù)的輸入是給定的和弦進(jìn)行
注意,Ci是和弦的向量表示,lc是序列的長度。我們的目標(biāo)是生成合適的節(jié)奏
和旋律
。為此,我們提出CRMCG用于單軌音樂,以及MICA用于多軌音樂來解決 這個問題。
圖4顯示了小冰樂隊(duì)的整體框架,它可以分為四個部分:
1)數(shù)據(jù)處理部分;
2)用于旋律生成的CRMCG部分(單軌);
3)用于編曲生成的MICA部分(多軌道);
4)顯示部分。
▌基于和弦的節(jié)奏和旋律交叉生成模型——CRMCG
旋律由一系列音符和相應(yīng)的持續(xù)時間組成。這是流行音樂的基本組成部分。然而,生成和諧的旋律仍然具有挑戰(zhàn)性。此外,音符級別生成方法使得暫停具有更多隨機(jī)性,使音樂很難唱出來。因此,我們提出CRMCG來解決問題并生成合適的歌唱節(jié)奏。圖5給出了CRMCG架構(gòu)。
給定和弦進(jìn)行
。在樂段pi中生成的節(jié)奏Ri和旋律Mi與和弦ci密切相關(guān)。我們利用編碼器-解碼器框架作為我們的基本框架,因?yàn)樗梢造`活地使用不同的神經(jīng)網(wǎng)絡(luò),例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)來有效地處理序列。
為了更好地理解和弦進(jìn)行并模擬這些和弦的相互作用和關(guān)系,我們利用門控遞歸單元(GRU)來處理和弦的低維表示。它們可以表述如下:
這里,Ec是和弦的嵌入矩陣,隱藏狀態(tài)對每個和弦和序列上下文進(jìn)行編碼。然后我們可以使用這些隱藏的狀態(tài)來幫助生成節(jié)奏和旋律。
具體來說,我們的生成處理可以分為兩部分:節(jié)奏生成(生成的節(jié)奏與現(xiàn)有的音樂部分相協(xié)調(diào)至關(guān)重要,因此,在這部分中,我們考慮了音樂的前一部分)和旋律生成(在生成當(dāng)前節(jié)奏之后,我們可以利用該信息來生成旋律)。
由于生成過程可以分為兩部分,我們?yōu)槊總€部分設(shè)計兩個損失函數(shù)。損失函數(shù)都是交叉熵函數(shù)。根據(jù)模型的特點(diǎn),我們可以通過參數(shù)相關(guān)性來交替更新參數(shù)。
▌多任務(wù)編曲模型
1)多樂器聯(lián)合編曲模型。在實(shí)際應(yīng)用中,音樂包含多個音軌,例如鼓,貝斯,弦樂和吉他。為此,我們制定了一對多序列生成(OMSG)任務(wù)。與傳統(tǒng)的多序列學(xué)習(xí)不同,OSMG中生成的序列密切相關(guān)。當(dāng)生成其中 一個序列時,我們應(yīng)該考慮其與其他序列的和諧,節(jié)奏匹配和樂器特性。我們的目標(biāo)是在音樂生成過程中模擬不同軌道之間的信息流,因而設(shè)計提出基于CRMCG的多樂器聯(lián)合編曲模型(MICA)。
給定旋律,我們著重生成更多的音軌來給旋律進(jìn)行伴奏。如圖6(a)所示, 解碼器的隱藏狀態(tài)包含序列信息。因此,當(dāng)為其中一個軌道生成音符時,它自然地引入了其他軌道的隱藏狀態(tài),但是如何有效地集成它們?nèi)匀皇且粋€挑戰(zhàn)。
為此,我們在解碼器的隱藏層之間設(shè)計了兩個單元:注意力單元和 MLP單元 (多層感知機(jī)單元)來解決這 個問題。
注意力單元:受注意力機(jī)制的啟發(fā),可以幫助模型關(guān)注輸入的最相關(guān)部分,我們設(shè)計了 一個創(chuàng)意性的注意力單元;
MLP單元:我們考慮每個樂器的個體隱藏狀態(tài),并通過它們對整個音樂的重 要性進(jìn)行整合,這是由門單元實(shí)現(xiàn)的。因此,模型可以選擇每個儀 器信息中最相關(guān)的部分來提高整性能。
2)損失函數(shù):優(yōu)化了若干條件概率項(xiàng)的總和,這些條件概率項(xiàng)以來自同一編碼器的表示為條件。
這里
m是任務(wù)數(shù)。θsrc是源編碼器的參數(shù)集合,是第?Tk?個目標(biāo)軌道的參數(shù)集。Np?是第?p?個序列對的平行訓(xùn)練語料庫的大小。
3)生成:在生成部分,安排CRMCG生成的旋律。
實(shí)驗(yàn)
為了研究CRMCG和MICA的有效性,我們對收集的數(shù)據(jù)集進(jìn)行了兩個任務(wù)的實(shí)驗(yàn):旋律生成和編曲生成。
▌數(shù)據(jù)描述
在本文中,我們在真實(shí)世界數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集由超過五萬個MIDI(數(shù)字分?jǐn)?shù)格式)文件組成,并且為了避免偏差,那些不完整的 MIDI 文件,例如沒有聲道的音樂都被刪除。最后,我們的數(shù)據(jù)集中保存了14,077個MIDI文件。具體來說,每個MIDI文件包含各種類型的音軌,如旋律, 鼓,貝司和弦樂。
為了保證實(shí)驗(yàn)結(jié)果的可靠性,我們對數(shù)據(jù)集進(jìn)行了如下預(yù)處理。首先,我們將所有MIDI文件轉(zhuǎn)換為C大調(diào)或A小調(diào),以保持所有音樂在同一曲調(diào)上。然后我們將所有音樂的BPM(每分鐘節(jié)拍)設(shè)置為60,這確保所有音符都是整數(shù)節(jié)拍。最后,我們將每2個小節(jié)并為一個樂段。下表中總結(jié)了修剪數(shù)據(jù)集的一些基本統(tǒng)計數(shù)據(jù)。
▌訓(xùn)練細(xì)節(jié)
我們從數(shù)據(jù)集中隨機(jī)選擇9,855個實(shí)例作為訓(xùn)練數(shù)據(jù),另外2,815個用于 調(diào)整參數(shù),最后1,407個作為測試數(shù)據(jù)來驗(yàn)證性能以及更多生成的音樂。在我們的模型中,對于編碼器和解碼器中的每個GRU層,循環(huán)隱藏單元的數(shù)量設(shè)置為256。用于計算注意力單元和MLP單元中的隱藏向量的參數(shù)的維度被設(shè)置為256。使用隨機(jī)梯度下降算法更新模型,其中批量大小設(shè)置為64,并且根據(jù)驗(yàn)證集上的交叉熵?fù)p失選擇最終模型。
▌旋律生成,CRMCG模型的性能
我們僅使用從原始MIDI音樂中提取的旋律軌跡來訓(xùn)練模型并評估旋律軌跡生成結(jié)果的美學(xué)質(zhì)量。基線方法選擇Magenta(RNN)&GANMidi(GAN),除了提出的CRMCG模型,我們還評估了模型的兩個變體,以驗(yàn)證和弦進(jìn)行和交叉訓(xùn)練方法對旋律生成的重要性:CRMCG(有/無和弦進(jìn)行)&CRMCG(有/無交叉訓(xùn)練)
韻律(Rhythm): 音樂聽起來流暢而適當(dāng)暫停嗎?
旋律(Melody): 音樂識別關(guān)系是否自然而和諧?
完整(Integrity): 音樂結(jié)構(gòu)是否完整而不是突然中斷?
可唱性(Singability): 音樂適合用歌詞唱歌嗎?
▌編曲生成,MICA模型的性能
我們選擇多軌音樂生成中的五個最重要的任務(wù),即旋律,鼓,貝斯,弦樂和吉他。基線方法為了驗(yàn)證兩個 MICA 模型的性能,選擇相關(guān)模型HRNN 作為基線方法
性能如圖9所示。根據(jù)結(jié)果,通常,我們基于MLP單元的MICA模 型在所有指標(biāo)上都實(shí)現(xiàn)了最佳性能。而且,從圖9(a)可以得出結(jié)論,鼓的任務(wù)具有最大的音符準(zhǔn)確度,這證實(shí)鼓比其他樂器更容易學(xué)習(xí)。并且,如圖9(b)所示,與HRNN相比,我們基于MLP單元的MICA模型平均可以提高6.9%的質(zhì)量。同時,從圖9(c)中,我們觀察到,我們基于MLP單元的MICA模型對音符分布均方誤差具有最穩(wěn)定的效果,這證明 我們的模型可以更好地學(xué)習(xí)樂器特性。最后,圖9(d)說明了我們基于MLP單元的MICA模型的穩(wěn)健性,該模型可以保持高水平的生成結(jié)果。
結(jié)論
在本文中,我們提出了一種基于音樂知識的旋律和編曲生成框架,稱為小冰樂隊(duì),它生成了同時伴隨的幾種樂器的旋律。對于旋律生成,我們設(shè)計了基于和弦的節(jié)奏和旋律交叉生成模型(CRMCG),其利用和弦進(jìn)行來指導(dǎo)旋律進(jìn)行,以及通過節(jié)奏型來學(xué)習(xí)歌曲的結(jié)構(gòu)。對于編曲生成,在多任務(wù)學(xué)習(xí)的推動下,我們提出了一種用于多音軌音樂編曲的多樂器聯(lián)合編曲模型(MICA),它在解碼器層的每一步使用其他任務(wù)狀態(tài)來提高整個的性能并確保多軌音樂的和諧。通過大量實(shí)驗(yàn),無論是會自動指標(biāo)還是人工評估,我們的系統(tǒng)與其他模型相比均表現(xiàn)出更好的性能,并且我們已經(jīng)完成了圖靈測試并取得了良好的效果。此外,我們在互聯(lián)網(wǎng)上制作了流行音樂示例,展示了我們模型的應(yīng)用價值。
-
解碼器
+關(guān)注
關(guān)注
9文章
1143瀏覽量
40755 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4772瀏覽量
100802
原文標(biāo)題:KDD 2018 | 中科大、蘇州大學(xué)與微軟的合作論文獲最佳學(xué)生論文獎
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論