網上關于機器學習的文章,視頻不計其數,本來寫這么一篇東西,我自己也覺得有點多余,但是我還真沒找到一個能幫助像我這樣零基礎的人,快速接觸和上手機器學習的文章。這篇文章不能讓你深入學習和掌握機器學習的相關知識,但是一定能讓你快速了解什么是機器學習,以及你到底要不要深入學習,你需要提前學哪些東西來makes you ready。
機器學習是什么
其實這個恐怕任何一個從業人員都已經了解了,我也不過多介紹了,用我自己的話來說就是:讓機器學會用接近人類思考的方式來學習新的技能,從而幫助人類從一些簡單的智能工作上解脫出來。比如車牌號識別、手寫識別、語音識別、圖片OCR等等。
機器學習的過程
機器學習的流程可以概括為幾大部分,分別是:設置數據集、劃分訓練集和測試集、構建計算網絡、訓練模型、測試模型以及其他一些環節。設置數據集就是獲取測試數據,你不能用爬蟲隨便爬幾千個圖片來訓練,必須將圖片先轉化為規范的數據集合,比如大小相同等。其他的語音識別等,也需要先做類似的工作。幸運的是,你可以注冊一個kaggle的賬號,來獲取一些已經采集好的標準數據集。第二步是劃分集合,一多半用來訓練,一小半用來測試,具體的比例你可以自行測試調優。訓練集用來訓練模型,測試集用來評估訓練結果。為了防止模型過于匹配某些訓練數據(術語叫做過擬合),訓練時往往是不停的隨機抽取樣本建立批次來進行訓練的,而不是分批次逐個批次訓練做到全覆蓋。后面的幾個環節,我就不細說了,網上最多的就是這個。在keras框架中,這三個環節也就是幾行代碼的事。
tensorflow、keras、Matlab和神經網絡CNN都是什么
這個是我初學的時候最困擾我的問題之一。Matlab是一種開發工具,類似于python語言,通信專業的孩子都懂的,經常用來繪制數學圖像。tensorflow是一套機器學習框架,你可以詳細的設計和定制你的學習模型和流程,當然你需要大量的專業知識和技能才能做到。keras是最適合我這種入門小白學習的,但是抽象的級別過高,你還是先了解下tensorflow再用比較好。它把很多tensorflow的功能(也可以使用theano和其他計算框架)都進行了更高層面的組合,讓你用很少的代碼就能實現很多功能。神經網絡CNN是主要用于圖像領域的計算框架,是一種計算模型,類似于基于Java或者PHP語言所使用的后端架構。實現的方式多種多樣,這種架構比較適合圖像識別(也可以用于語音識別等)。
基礎知識的準備
matplotlib庫是你必備的,這個是數學工具庫,主要用來繪制數學函數和圖像,非常的強大,很接近于Matlab的功能。這個網上也有專門的教程,建議先簡單學習一下。
然后是numpy庫,這個庫是科學計算領域常用的庫,專門用來做數字方面的工作,也是建議先學習一下。機器學習在某些時候,很接近于線性回歸,而這個庫很適合用來創建大量的數字集合。
再之后是OpenCV庫,這個是專門用來做圖像處理的庫(我學的是python版本,原版貌似是c++開發的),包括攝像頭采集,圖像變換,圖像分析分類等等,功能非常的強悍,可以說是計算機視覺領域必備的庫。網上也有專門的大量教程,也建議先學習一下,了解基礎用法。其中攝像頭人臉檢測(就是在圖像中識別出有沒有人臉),甚至已經內置了處理模型,能直接調用api檢測出來。
下一步要做什么
想要開發出一個識別人臉或者動物的模型其實很簡單,但是但是但是!想要知道這個模型是如何設計的,以及設計一個屬于自己的模型去解決特定問題,這個是很難的。也就是說,寫代碼很簡單,關鍵是熟練使用各種數學模型組成計算框架。斯坦福大學在網易云課堂上面有一個公開課,里面全都是各種數學模型和公式,目前我還無法駕馭,數學學渣感覺壓力很大。如果你想深入研究并解決你自己遇到的特定問題,那么你需要熟練使用各種數學模型,還要知道如何評估自己的模型的準確率。星辰大海等著你去征服,少年。
最后的最后,我學這個時間確實很短,一定會有很多遺漏和錯誤之處,如果大家發現了,請一定指出并最好附上文檔鏈接,大家共同學習。
評論
查看更多