近幾年,機器學習迎來了前所未有的大爆發,幾乎隨處可見。今天就來介紹一下如何在線構建共享機器學習模型。
Jupyternotebooks是用來建立機器學習模型最常見的環境之一,它是本地開發機器學習的好工具,但也有缺點,它很難在生成代碼上共享與協作。
你不得不進行一系列合理設置,非python用戶尤甚,包括需要設置python環境,安裝Jupyter及其依賴項以及可能需要的其他python軟件包。
有點麻煩?有的工具可以直接在瀏覽器中運行開發notebooks中的python代碼。本文就將介紹兩個這樣的工具。
GoogleColaboratory
Google Colaboratory,通常被稱為colab,由谷歌開發,允許所有人在瀏覽器中創建并運行python代碼。其內置許多標準機器學習和數據科學庫,包括pandas和scikit-learn,還可以安裝幾乎其他所有python庫,以便在每個notebook中使用。
若想訪問colab需注冊谷歌賬戶,可免費訪問notebook環境和計算資源,包括GPU。
來快速演示一遍:
登錄谷歌帳戶后,進入谷歌云盤(Google drive)并選擇新的Google Colaboratory。
這樣就新建了一個空白notebook。
可以通過運行pip freeze 來查看預安裝軟件包。
如果需要安裝尚無法獲取的軟件包,可以通過運行 pip install package來完成。
導入數據有許多種方法,包括直接從谷歌云盤中加載文件。
那么怎樣從本地CSV文件導入數據呢?
首先運行此代碼。
from google.colab importfilesuploaded = files.upload()
然后就能看到一個按鈕,可以從本地系統任意位置選擇文件。
現在就可以自由編寫代碼來創建機器學習模型。
Googlecolab notebooks可以通過鏈接共享,類似于谷歌文檔共享,鏈接接收者可以運行并編輯代碼。
Kaggle kernels
Kagglekernels需要注冊賬戶,但也是完全免費使用。與Googlecolab notebooks非常相似,不過其特有優點是可以進行版本控制。
一旦創建好帳戶,就可以導航到網站的kernels區域,然后選擇新的Notebook。
與colab類似,Kaggle kernels提供了許多python常用標準庫,可以通過使用pip freeze查看。在導入其他庫方面也采用了與colab完全相同的方法,安裝軟件包也如此。
加載數據非常簡單。首先,選擇文件(File),然后選擇添加或上傳數據(Add orupload data)。
現在會看到一些選項,可以使用Kaggle數據集(Datasets)、kernel輸出文件(Kernel Output Files)或上傳到本地CSV文件。
前面說到Kaggle有內置版本控制,也就是說可以向自己的kernel或其他人的kernel提交更改,并在需要時追蹤并恢復到以前的版本,這樣有利于協同合作。
筆者經常使用瀏覽器中的notebooks來展示工作,特別是那些不會使用Jupyter Notebooks或Python的非數據科學家。這兩種工具也是了解機器學習和數據科學的好方法,而且不需要大費周折在本地設置python和notebook環境。
-
Google
+關注
關注
5文章
1771瀏覽量
57706 -
機器學習
+關注
關注
66文章
8437瀏覽量
132892
發布評論請先 登錄
相關推薦
評論