如何將強(qiáng)化學(xué)習(xí)用于火箭發(fā)動(dòng)機(jī)引擎研發(fā)的創(chuàng)新解決方案中。
超越科技行業(yè)的機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)(ML)在各個(gè)行業(yè)以及眾多的應(yīng)用軟件中產(chǎn)生了令人難以置信的影響,其中包括個(gè)性化電視推薦和順風(fēng)車應(yīng)用中的動(dòng)態(tài)價(jià)格模型等。因?yàn)樗钱?dāng)下科技行業(yè)各大公司成功的核心要素,所以機(jī)器學(xué)習(xí)相關(guān)理論研究和應(yīng)用的發(fā)展速度十分驚人。
對(duì)于科技以外的行業(yè),機(jī)器學(xué)習(xí)可用于用戶的個(gè)性化體驗(yàn),自動(dòng)地執(zhí)行繁重的任務(wù)并優(yōu)化主觀決策。然而,即使是科技行業(yè)的業(yè)內(nèi)人士,了解最新的機(jī)器學(xué)習(xí)進(jìn)展并且知道如何最大化利用現(xiàn)有的先進(jìn)技術(shù)依然十分困難,更不用說(shuō)那些在其他領(lǐng)域(例如制造業(yè))致力于優(yōu)化工作的人。
然而,跨學(xué)科的產(chǎn)品經(jīng)理能夠很好地應(yīng)對(duì)這一艱巨的挑戰(zhàn)。通過(guò)了解行業(yè),進(jìn)程和商業(yè)價(jià)值,以及對(duì)機(jī)器學(xué)習(xí)應(yīng)用廣度的深入理解,產(chǎn)品經(jīng)理可以確定現(xiàn)有哪些領(lǐng)域的創(chuàng)新是成熟的。
具有產(chǎn)品管理、軟件工程和數(shù)據(jù)科學(xué)經(jīng)驗(yàn)的他們具有獨(dú)特的視角,使他們自己能夠促進(jìn)那些尚未廣泛應(yīng)用機(jī)器學(xué)習(xí)的行業(yè)與先進(jìn)技術(shù)應(yīng)用之間的融合。通過(guò)與跨學(xué)科的各領(lǐng)域?qū)<液献鳎a(chǎn)品經(jīng)理可以重塑制造流程,全面提升其效率、安全性和可靠性。
作為Insight的數(shù)據(jù)產(chǎn)品管理研究員,我曾與機(jī)器學(xué)習(xí)工程研究員,Nina Lopatina,仿真工程師Saeed Jahangirian以及Jordan Noone的動(dòng)力工程師一起工作,研究提高火箭發(fā)動(dòng)機(jī)引擎的生產(chǎn)效率。硬件設(shè)計(jì)人員和制造商的最大成本來(lái)自于控制系統(tǒng)的測(cè)試、驗(yàn)證和校準(zhǔn)。
我們提出了一個(gè)概念,并驗(yàn)證可以將強(qiáng)化學(xué)習(xí)用于自動(dòng)調(diào)整火箭引擎中的子組件,以滿足驗(yàn)證和協(xié)作中對(duì)大量時(shí)間和資源的需求問(wèn)題。我們的解決方案可以節(jié)省數(shù)千美元,從而避免在昂貴的測(cè)試設(shè)備上進(jìn)行長(zhǎng)達(dá)三個(gè)月的手動(dòng)測(cè)試。傳統(tǒng)的程序也十分危險(xiǎn),很小的錯(cuò)誤也會(huì)對(duì)昂貴的硬件造成重大損害,更重要的是,會(huì)對(duì)參與測(cè)試的技術(shù)人員構(gòu)成危害。
測(cè)試,驗(yàn)證和校準(zhǔn)是硬件開(kāi)發(fā)中最昂貴,最耗時(shí)的任務(wù)
在制造過(guò)程中開(kāi)發(fā)控制軟件的過(guò)程是非常繁瑣的
在我上一份工作中,我是一名軟件和控制工程師,為一個(gè)大型金屬3D打印機(jī)開(kāi)發(fā)控制回路。控制回路是一臺(tái)機(jī)器控制軟件的別稱。控制汽車巡航的控制軟件就是一個(gè)相當(dāng)簡(jiǎn)單的例子。它監(jiān)控車輛的速度并控制油門(mén)直至達(dá)到目標(biāo)速度。對(duì)于3D金屬打印機(jī)這個(gè)項(xiàng)目,控制算法相對(duì)更復(fù)雜一些。我們開(kāi)發(fā)的打印機(jī)是一個(gè)連接機(jī)器人手臂的焊工。機(jī)器人逐層跟蹤零件,而焊工將新的一層焊接到先前的一層并構(gòu)建零件。
在逐層追蹤零件的同時(shí),熱源熔化金屬絲并將新層融合到前一層 - 圖片由Sciaky Inc.提供
控制軟件可控制熱量的輸入,遍歷速度,送絲速度以及其他一些旋鈕,以確保零件符合規(guī)格要求。規(guī)范包括最終部件的質(zhì)量,例如缺陷的數(shù)量和尺寸,以及部件的尺寸,每層的寬度和高度。如果一切正常,結(jié)果將符合規(guī)范。但是如果控制算法沒(méi)有正確地完成其工作,則該部件會(huì)變形、斷裂或撕裂,并具有許多裂縫和毛孔。
開(kāi)發(fā)控制算法包括三個(gè)階段:
控制器法則設(shè)計(jì):在這個(gè)階段,目標(biāo)是理解管理過(guò)程的物理學(xué)。開(kāi)發(fā)了該過(guò)程的模擬仿真并用于創(chuàng)建控制軟件,而無(wú)需進(jìn)行昂貴且冗長(zhǎng)的物理試驗(yàn)。
軟件開(kāi)發(fā):在此階段,我們使用不同的建模技術(shù)來(lái)定義過(guò)程中輸入和輸出之間的關(guān)系。此步驟需要工程師將問(wèn)題分解為更小的部分并為每個(gè)部分開(kāi)發(fā)相對(duì)應(yīng)的模型。然后使用這些模型創(chuàng)建可以控制過(guò)程以達(dá)到預(yù)期結(jié)果的軟件。
控制校準(zhǔn):一旦軟件成功通過(guò)模擬仿真測(cè)試,工程師就會(huì)花幾個(gè)月的時(shí)間在物理系統(tǒng)上對(duì)軟件進(jìn)行調(diào)整優(yōu)化,以解釋模擬仿真和物理現(xiàn)實(shí)之間的差異。
問(wèn)題是每個(gè)階段可能需要數(shù)周到數(shù)年,并且在大多數(shù)情況下,包括微調(diào)過(guò)程模型或微調(diào)控制軟件以實(shí)現(xiàn)所需輸出的種種試驗(yàn)。這是許多試驗(yàn)所做的優(yōu)化問(wèn)題。更智能的方法是將系統(tǒng)分解為更容易建模的子組件,然后使用直接和迭代方法來(lái)找到控制子組件的最佳方法。這種方法仍然需要工程師的聰明才智來(lái)解決問(wèn)題,并且最終需要通過(guò)多次試驗(yàn)來(lái)優(yōu)化各個(gè)子組件之間的交互。它還遠(yuǎn)遠(yuǎn)不是一個(gè)全自動(dòng)化的過(guò)程。
為了尋找解決這一問(wèn)題的自動(dòng)化方法,我們將強(qiáng)化學(xué)習(xí)作為開(kāi)發(fā)復(fù)雜機(jī)械控制回路的端到端解決方案。
強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)正在學(xué)習(xí)如何最大化獎(jiǎng)勵(lì)功能。從某種意義上說(shuō),強(qiáng)化學(xué)習(xí)是學(xué)習(xí)環(huán)境中代理的控制算法的自動(dòng)化過(guò)程。
1. 一個(gè)代理在一個(gè)環(huán)境中運(yùn)行,它可以使用我們稱為“動(dòng)作”的執(zhí)行器來(lái)執(zhí)行環(huán)境。
2. 然后環(huán)境響應(yīng)代理所采取的操作,這樣會(huì)將代理和環(huán)境置于一個(gè)新的狀態(tài)。
3. 然后根據(jù)代理的狀態(tài)和環(huán)境定義獎(jiǎng)勵(lì)函數(shù)。
4. RL的目標(biāo)是學(xué)習(xí)采取行動(dòng)的最佳策略,使未來(lái)的回報(bào)總和最大化。
強(qiáng)化學(xué)習(xí)的組成部分
例如,像俄羅斯方塊這樣的電子游戲可以被認(rèn)為是一個(gè)環(huán)境,游戲中的玩家可以被認(rèn)為是一個(gè)代理。
1.動(dòng)作是玩家可以采取的動(dòng)作,比如旋轉(zhuǎn)形狀。
2. 這些動(dòng)作改變了游戲的狀態(tài),游戲狀態(tài)可以定義為在每個(gè)時(shí)間點(diǎn)上顯示器上的所有像素。
3.我們可以將獎(jiǎng)勵(lì)函數(shù)定義為玩家清除的每一行的+1和輸?shù)粲螒虻?100。
4. 強(qiáng)化學(xué)習(xí)的目的是提出一個(gè)將狀態(tài)映射到操作的函數(shù),從而使總回報(bào)最大化。
類似地,金屬3D打印機(jī)控制回路的開(kāi)發(fā)也可以表示為強(qiáng)化學(xué)習(xí)問(wèn)題。
1. 所采取的動(dòng)作是改變熱輸入的強(qiáng)度、遍歷速度、送絲速度等。
2. 這些操作改變了打印的幾何形狀及其質(zhì)量,我們稱之為打印狀態(tài)。
3.獎(jiǎng)勵(lì)函數(shù)可以被定義為這樣一種函數(shù):它顯示了打印結(jié)果在任何時(shí)刻與它的規(guī)格的接近程度。
4. 其目標(biāo)是提出一個(gè)函數(shù),告訴打印機(jī)如何控制其執(zhí)行器,給定其當(dāng)前打印狀態(tài),以獲得最佳打印結(jié)果。
所有控制的問(wèn)題都可以描述為強(qiáng)化學(xué)習(xí)問(wèn)題。目的是估計(jì)一個(gè)稱為“策略”的函數(shù)。策略將狀態(tài)映射到操作,從而使獎(jiǎng)勵(lì)函數(shù)最大化。如果函數(shù)域是有限的,那么你可以探索和存儲(chǔ)每個(gè)輸入和輸出映射,但是如果函數(shù)具有復(fù)雜的動(dòng)態(tài)和很大或無(wú)限的域,那么這時(shí)機(jī)器學(xué)習(xí)就可以發(fā)揮作用了。
最近,強(qiáng)化學(xué)習(xí)研究人員一直致力于解決棘手的問(wèn)題。他們跟隨深度學(xué)習(xí)的腳步,解決了經(jīng)典算法無(wú)法解決的任務(wù)(圖像分類),得到了很多的牽引和關(guān)注。他們著手解決目前經(jīng)典算法幾乎無(wú)法解決的非常困難的問(wèn)題。谷歌的DeepMind專注于在圍棋等非常復(fù)雜的游戲中擊敗人類,而OpenAI專注于開(kāi)發(fā)通用的人工智能。
另外,強(qiáng)化學(xué)習(xí)也可以用來(lái)自動(dòng)解決更簡(jiǎn)單的問(wèn)題,而不是專注于困難的問(wèn)題,這些問(wèn)題目前都是人工完成的,需要花費(fèi)大量的時(shí)間和精力來(lái)解決,比如為3D打印機(jī)或其他復(fù)雜的機(jī)械部件開(kāi)發(fā)一個(gè)控制循環(huán)。這種影響不如開(kāi)發(fā)通用智能具有新聞價(jià)值,但它可以為許多制造組織中的許多控制工程師節(jié)省時(shí)間和精力。
用RL調(diào)整火箭發(fā)動(dòng)機(jī)
我們制作了火箭發(fā)動(dòng)機(jī)或燃?xì)廨啓C(jī)中遇到的流體動(dòng)力學(xué)問(wèn)題的簡(jiǎn)化版本。為這樣的系統(tǒng)開(kāi)發(fā)控制算法可能需要長(zhǎng)達(dá)3個(gè)月的設(shè)計(jì)、測(cè)試和驗(yàn)證。這是一個(gè)非線性控制問(wèn)題,需要工程師的智慧和時(shí)間來(lái)解決,可以證明強(qiáng)化學(xué)習(xí)在解放工程師時(shí)間方面的可行性。
以流體動(dòng)力學(xué)中的一個(gè)非線性控制問(wèn)題為例,說(shuō)明了用強(qiáng)化學(xué)習(xí)開(kāi)發(fā)控制算法的可行性
這是一個(gè)跨學(xué)科的項(xiàng)目,需要推動(dòng)工程師之間的合作來(lái)定義問(wèn)題,仿效工程師來(lái)構(gòu)建一個(gè)準(zhǔn)確的系統(tǒng)模擬,以及一個(gè)培訓(xùn)代理的機(jī)器學(xué)習(xí)工程師。最后,結(jié)果表明強(qiáng)化學(xué)習(xí)算法可以產(chǎn)生與控制工程師一樣好的控制策略,并且可以節(jié)省數(shù)月的試驗(yàn)時(shí)間。
針對(duì)流體動(dòng)力學(xué)控制問(wèn)題,策略優(yōu)化過(guò)程中的模擬狀態(tài)快照。
一個(gè)使用深度增強(qiáng)學(xué)習(xí)(Proximal Policy Optimization)訓(xùn)練過(guò)的代理對(duì)一個(gè)新目標(biāo)做出反應(yīng)。代理平均通過(guò)4個(gè)步驟自動(dòng)更改輸入參數(shù)以匹配所需的輸出。結(jié)果與由工程師開(kāi)發(fā)和調(diào)整的控制算法一樣好。
結(jié)論
我們使用強(qiáng)化學(xué)習(xí)來(lái)為火箭發(fā)動(dòng)機(jī)的制造提供一個(gè)有效的解決方案,而不是使用機(jī)器學(xué)習(xí)技術(shù)來(lái)解決以前幾乎不可能完成的任務(wù)。使用機(jī)器學(xué)習(xí)解決更簡(jiǎn)單的問(wèn)題是一種適用于許多領(lǐng)域的方法,如制造業(yè)、汽車和航空航天工業(yè)。強(qiáng)化學(xué)習(xí)研究人員通常是看不到這些行業(yè)所面臨的困難,同樣地,這些行業(yè)往往也不熟悉強(qiáng)化學(xué)習(xí)領(lǐng)域的進(jìn)展。這種脫節(jié)更突出了機(jī)器學(xué)習(xí)產(chǎn)品經(jīng)理在機(jī)器學(xué)習(xí)與產(chǎn)品需求之間的聯(lián)系,以及彌合學(xué)科之間的差距方面所起到的作用。
Insight的數(shù)據(jù)產(chǎn)品管理研究項(xiàng)目(The Insight Data Product Management Fellowship)提供了一個(gè)協(xié)作學(xué)習(xí)環(huán)境來(lái)彌補(bǔ)這一差距。產(chǎn)品經(jīng)理、工程師和數(shù)據(jù)科學(xué)家通過(guò)利用各自在這些領(lǐng)域的專長(zhǎng),共同構(gòu)建交叉學(xué)科的產(chǎn)品。Insight吸引了來(lái)自工程、科學(xué)和產(chǎn)品領(lǐng)域的不同背景的學(xué)者,當(dāng)他們聚在一起時(shí),我們看到機(jī)器學(xué)習(xí)的新應(yīng)用成功地解決了各個(gè)行業(yè)的問(wèn)題。
-
火箭發(fā)動(dòng)機(jī)
+關(guān)注
關(guān)注
0文章
11瀏覽量
9393 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
268瀏覽量
11277
原文標(biāo)題:如何利用強(qiáng)化學(xué)習(xí)設(shè)計(jì)出更好的火箭發(fā)動(dòng)機(jī)
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論