無論從學術研究還是就業來看,機器學習都算是現在一個非常火的方向了,許多學生在申請碩士或者博士的時候都選擇這個方向,甚至不少不是這個方向的學生也決定換導師,轉向機器學習。
但是作為一個出現時間不長的研究方向,沒有前車之鑒,不知道怎么選項目、不知道怎么開始項目等問題難住一些剛起步的博士。
在Reddit上就有剛剛開始攻讀機器學習方向的博士在線提問,怎么成功讀完機器學習博士?有許多網友熱心提供了答案,有的答案非常中肯,不僅值得提問者參考,也適合每一個準備從事機器學習的人——無論是學生還是從業者。
剛換導師轉向機器學習,該做什么項目?
一位題主是一名最近換了導師轉向機器學習的博士生,他問道:我目前已經進行了初步學習,盡管我已經想到了一些項目,但我認為它們不足以讓我獲得博士學位。大家有什么好的建議嗎?不勝感激!
不要重復造輪子,要把當下需要解決的問題作為方向
第一個回答者認為需要請教導師,知道當下這個領域的前沿研究和已經完成的研究,不要做別人已經做過的研究,只有創新才有價值。以下是回答的原文翻譯:
我認為,要獲得機
器學習博士學位,你需要一個好的項目,通常是以新算法、新定理、或者是對以前就有的算法進行修正,總之是全新的形式,而不僅僅是對數據集應用一些舊模型。
這是我的看法,也是我的這個領域的工作方式,而且據我所知,這也是它在大多數其他領域的工作方式。也就是說,如果你想做一個全新的項目,首先你必須知道這個領域什么已經被做到了。
但是你不能回顧所有的論文看看人們都做過什么,所以你必須縮小范圍,從小處入手看看你想做什么。從這個意義上說,你的導師應該指導你,因為他們知道學術界正在研究什么。然后去和他們交談,問他們手頭正在做什么,有什么事亟待解決的問題,以及他們認為哪些方向值得去探索。
我在強生都做過什么機器學習項目
第二個回答者是一名從業者,他沒有給直接的建議,而是詳細地說明了自己作為一名從業人員在工作中做的項目,試圖告訴題主機器學習在產業中可以做什么。
下面是回答原文翻譯:
我在強生公司工作了兩年,做了很多項目,學到了很多東西。其中包括使用機器學習進行預測,將預測結果與傳統的預測方法進行比較,并建立了一個模型,該模型將這些不同的參數作為輸入,從而看到改進的結果。
我還做了NLP和情緒分析,試圖確定Twitter上大家對某些產品的共識,并觀察收入是如何隨著情緒低落而下降的。我還參與了異常檢測的一個項目,在這個項目中,通過客戶的評論,我可以判斷他們購買的產品是否被篡改、假冒或其他違規操作。我用LDA,fuzzy和KNN進行了主題建模,看看這些評論是如何聚合的,或者他們是如何將特定的詞匯組合起來,這樣就可以在特定的詞匯中增加更多的權重,從而進一步關注。
可以考慮專注給一個領域解決實際問題
第三名回答者是一位專注于深度學習的博士生,他用自己的研究舉了個例子。下面是回答原文:
我的關注點是在很大程度上尚未被觸及的領域,并在此領域開發和應用深度學習模型。
我的工作本質上是將數字圖書館應用于農業領域,在農業領域,數據有時是非常不均勻的,并且很難獲得。如果歸結起來是對幾種情況進行一系列可行性研究,進行比較分析,并為該領域提供實際工具,以幫助基層生產商的決策過程,以及幫助他們的專家進行分析。
因此我認為,在一個領域內進行一系列的應用或可行性研究是一個不錯的選擇。
教授:如果自己實在沒方向,可以直接問導師
第四位回答者是一位機器學習領域的教授,他的回答很有意思:
我是一個機器學習專業的教授,通常博士生不會根據我給他們的方向來工作,他們想要在論文中提出他們自己的想法!當然,如果你不是那樣的人,告訴你的導師。他可能有很多想法,至少我有。
迷茫的機器學習新博士,該如何進行研究?
還有一個題主是一個新的機器學習博士,方向是是計算機視覺,主要是語義和實例分割,他表示自己有點迷茫,一下子提了很多問題:
你是如何在這個領域進行研究的?日常工作是什么樣子的?
你關注新的神經網絡結構和并且親自重現他們的實驗嗎?
你會只是下載其他人的模型然后在自己的數據集上跑跑嗎?
你如何看不同的知識結構、論文?能給我一個你讀過的所有論文匯總么?或者還有什么具體的建議?
一個進行實證研究的速成課程
第一位回答者直接給了一個從事實證研究的“速成課”。
1、做實事。如果你還沒有實現目標,那就從最底層做起,一步步往上爬。比如我完成我第一個“新”的想法的中長期規劃:
2、在做事情的時候,要注意細節。你可能會發現有些事情做得不夠理想(為什么使用5x5過濾器而不是convs?或者想出更好的方法,例如如果我使用卷積層,所有的權值都是由某種張量積構成的呢?如果我把損失函數調整得這里更平滑,那里更清晰呢?別猶豫,大膽嘗試你的想法。
3、在你嘗試了很多想法之后,你就開始有感覺了,對你正在學習的東西有更深的理解。想想你真正想要學習的是什么——你關心潛在的任務嗎?或者說問問自己,我可以通過做這個任務來學習神經網絡訓練的一般知識嗎?可以通過提高分數來學習優化知識嗎?
4、你的一些想法會是有效的,但絕大多數不會,關注你失敗和成功的地方,并批判性地思考它們背后的現象。為什么想法A能提高性能,而想法B卻不能?
5、一段時間后,你會有更多的想法但你沒有時間去實現,有更多的新知識單沒有時間寫在紙上。理想情況下,你的研究方向意味著:在任務X中,方法a占主導地位。但是如果我們調整方法A而應用方法B去修改任務X,這通常情況下會發生什么?或者你可能會說,“每個人都在關注Y,但是如果我關注Z呢?”,或者如果我們試著用這種方法得到問題Y的答案而這種方法以前從未嘗試過呢?”(ICLR幾年前的反思泛化論文就是一個很好的例子)。所以多寫論文,論文是一種媒介,通過它,你可以盡可能簡潔、清晰地表達你的知識,并提供支持的經驗證據。
6、清洗和重復。考慮一下這個過程,因為你總是再往前走的,考慮你的研究方向,試著調整你的能力,深入到你真正想要回答的問題。對一些人來說,這意味著少花點心思在排行榜上;對一些人來說,這意味著更多地關注于登上排行榜首位的最佳方式(兩者都是有效的!)
多讀資料找靈感,可以跑別人的模型作為對比
第二位回答者則不建議太關注做項目本身,他認為多讀文獻也很重要,利用別人的模型來作對比也無可厚非。
這個問題中很多人似乎都專注于測試、測試、測試。但是我最好的建議是閱讀(和理解)論文。先在腦海中對你的領域有一個整體的印象,并弄清楚你想著手做什么。然后閱讀越來越具體的文章,對你想要研究的內容也越來越具體。
與此同時,保持開放的心態,不要過于專注于你的特定主題:從其他地方獲得靈感,也想提高你的創造力。如果你不知道從哪里開始,向你的教授要一些參考書,也許6本左右,這樣可以幫助你掌握相關關鍵的知識和最新技術。在我看來,先上手項目再理解知識完全是無用功
題主追問:
你關注新的神經網絡結構和并且親自重現他們的實驗嗎?
答主回答:
一旦你對你的方向有了一個很好的了解,你就會發現你遺漏了什么,你也會看到哪些文章是朝著正確的方向發展的。把你的工作建立在他們所做的基礎上,然后結合你自己的想法,如果您在一個已有的模型中看到一個缺陷,看看你是否可以改進,從而提出一個不會受到缺陷影響的替代方案。如果你有一個好主意,試著正式地表達出來,和你的導師談談。
題主繼續追問:
你會只是下載其他人的模型然后在自己的數據集上跑跑嗎?
答主回答:
你總是需要一個基準來和你的工作進行對比。可以找到一些類似于你正在做的項目,在你的原始數據上嘗試一下,看看你是否可以復制論文的結果。
-
神經網絡
+關注
關注
42文章
4779瀏覽量
101052 -
算法
+關注
關注
23文章
4629瀏覽量
93196 -
機器學習
+關注
關注
66文章
8438瀏覽量
132935
發布評論請先 登錄
相關推薦
評論