不抖機靈,想從接觸過機器學(xué)習(xí)學(xué)術(shù)圈但已投身工業(yè)界的角度來回答。
我認為:大部分機器學(xué)習(xí)從業(yè)者不需要過度的把時間精力放在數(shù)學(xué)上,而該用于熟悉不同算法的應(yīng)用場景和掌握一些調(diào)參技巧。好的數(shù)學(xué)基礎(chǔ)可以使你的模型簡潔高效,但絕非必要的先決條件。
原因如下:
1. 即使你有了一定的數(shù)學(xué)功底,還是不知道怎么調(diào)參或者進行優(yōu)化。
這話說的雖然有點自暴自棄,但捫心自問在座的各位,當(dāng)你發(fā)現(xiàn) accuracy 不好、loss 很高、模型已經(jīng) overfitting 了,你唰唰唰列列公式玩玩矩陣就知道問題出在哪里了嗎?不一定。誠然,懂得更多的統(tǒng)計原理可以幫助推測問題出在了哪里,你可能換了一個 loss function 或者加了新的 regularizer,但結(jié)果不一定會更好 :(數(shù)學(xué)基礎(chǔ)之于機器學(xué)習(xí)從業(yè)者很像 debugger 之于碼農(nóng),它給了你方向,但不能保證你一定可以解決問題。那怎么能解決問題?只有經(jīng)驗經(jīng)驗經(jīng)驗,別無他法,有時候甚至靠的是直覺。數(shù)學(xué)基礎(chǔ)是好的內(nèi)功基礎(chǔ),但你調(diào)包調(diào)多了,其實也慢慢能抓到一些感覺,不必看不起 “調(diào)包俠”。
2. 工業(yè)界可以應(yīng)用的模型是很有限的,可調(diào)的參數(shù)也是有限的。
工業(yè)界選擇模型非常看重可解釋性,效率,以及和整個系統(tǒng)的整合能力。舉例,在我的工作中,大部分時間都在使用 Regression 和 Decision Tree 相關(guān)的算法(如 Random Forests)。是因為這兩個算法最好么?不,恰恰是因為這兩個算法穩(wěn)定及高效,而且容易解釋。對于這樣的模型,你即使數(shù)學(xué)能力很強,能調(diào)整的參數(shù)也是有限的。根據(jù)網(wǎng)上的例子和經(jīng)驗,大量的工程師可以在數(shù)學(xué)基礎(chǔ)稍弱的情況下做到很好的效果。
3. 數(shù)學(xué) / 統(tǒng)計知識已經(jīng)成了既得利益者刻意為外來者建立的一道壁壘。
不知道大家有多少人是從事過 ML 研究的。我個人的觀察是做出成績的 ML 研究人員是有限的,科班出身的 researcher 更是遠遠無法工業(yè)界的空缺。所以大家沒有必要擔(dān)心會被轉(zhuǎn)行者搶了飯碗,也沒有必要刻意鼓吹一定要懂矩陣,凸優(yōu)化,等數(shù)學(xué)知識才配做機器學(xué)習(xí)。大家都是出來賣的,不必互相為難。說來慚愧,在工作中我常常跟老板說這個人不能用,你要用我這種科班出身的人,但我內(nèi)心是不贊同的。
每當(dāng)我看到知乎上有人問機器學(xué)習(xí)怎么入門,結(jié)果大家立馬推薦第一本就看 PRML 和 Statitical Learning 以及一大堆公開課和數(shù)學(xué)課的時候,我的內(nèi)心是崩潰的。各位答主的目標是把所有人都嚇回去還是秀一下優(yōu)越感?
4. 理論模型和實際應(yīng)用分的是兩塊不同的蛋糕。
承接第 2,3 點,做理論研究的發(fā)力于突破,提出新的模型或者優(yōu)化方法,做應(yīng)用的致力于把模型應(yīng)用于數(shù)據(jù)上,攫取商業(yè)價值。這兩者不存在利益沖突,做理論的人有自帶正統(tǒng)光環(huán)的優(yōu)勢,所以更該顯得大度一些。只有 “調(diào)包” 的人越來越多,這個行業(yè)才會繁榮,因為證明技術(shù)落了地,可以帶來實際價值。
5. 行業(yè)的發(fā)展趨勢是降低工具的使用難度,這讓我們不必反復(fù)造輪子。
亞馬、遜谷歌、微軟等各大平臺都開放了他們的機器學(xué)習(xí)工具。以前人們還需要自己寫各種模型,好一些的調(diào)一下 sklearn,但現(xiàn)在 Azure ML Studio 已經(jīng)方便到零代碼了。年初的時候,我試了一下 ML studio,簡直方便的可怕,完全是圖形拖動連接就可以建立模型,那一刻我仿似看到了自己即將失業(yè)。
6. 文藝一點說,我們需要更包容的心態(tài),切勿文人相輕。
想要接觸了解一門學(xué)科,應(yīng)該先有興趣,才有探索的積極性。就像我們第一次看到 Hello word 出現(xiàn)的樣子,很多剛?cè)胄械娜说谝淮慰吹綑C器學(xué)習(xí)能解決實際問題時,會產(chǎn)生濃厚的興趣。
我怕的就是所謂的圈內(nèi)人都說你必須要會矩陣分解,必須要會用 trace 算導(dǎo)數(shù),必須會優(yōu)化,才能開始學(xué)習(xí)機器學(xué)習(xí)。這個周期太長,很多人連開始的勇氣都沒有~ 我覺得不管怎么樣,要先動手做起來,發(fā)現(xiàn)自己的不足,再去補充需要的東西。
既然學(xué)術(shù)是自由的,我們就打開大門,歡迎大家都進來坐坐。如果他 / 她不喜歡,歡迎到隔壁串門。但我們不要給自己家門壘了高高的臺階,說閑人勿進。久而久之,難免門可羅雀。
綜上,我覺得應(yīng)用機器學(xué)習(xí)模型和技巧既不能完全不懂?dāng)?shù)學(xué),兩眼一抹黑,也不該要求每個從業(yè)者都要精通各種數(shù)學(xué)理論。模型應(yīng)用者要長存對理論的敬畏之心,不要總想搞個大新聞?wù)f “機器學(xué)習(xí)也不過如此”,但做理論的也不必覺得高人一等,別人都是二等公民。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132911
原文標題:如何看待「機器學(xué)習(xí)不需要數(shù)學(xué),很多算法封裝好了,調(diào)個包就行」這種說法?
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論