編者按:上MOOC、讀教科書、一遍又一遍地刷題……在畢業前,如果你對未來還是這樣一幅態度,那你幾乎就是在虛度光陰。雖然數據科學家是未來最“性感”的工作,但要成為“性感”的人,枯坐燈前當個書呆子可不成……
在畢業前,也許你是個勤奮的人,一直很努力地自學教材,也會上在線課程充實自我,但臨近畢業,現在的你在做些什么呢?數據科學家是一份令人望而生畏的工作,一方面,畢業生不知道自己水平是否足以勝任;另一方面,面試人員往往也很難從畢業生身上看出他們的全部實力。
但每個人都有走出象牙塔的一天,為了讓自己在社會上更有實力,你準備好迎接挑戰了嗎?如果你的夢想是當一名數據科學家,下面是DataOptimal創始人John Sullivan給你的5項技能建議。實踐是進入數據科學世界的最佳方式,而掌握熱門的必備技能將使你在職場上面面俱到。
1.數據清理
不要以為其他分析師會幫你處理好一切,作為一名數據科學家,如果你剛接手一個新項目,你可以把項目總用時里的80%用來做數據清理,這是科學的。無論是多高級的數據團隊,數據清理始終是從業人員心中的巨大痛點,換個角度看,這也是你的機遇。如果你能證明自己在數據清理上面經驗豐富,那你的價值實現指日可待。
為了鍛煉這方面的能力,記得找一些混亂的數據集,多多練習,多多積累。
如果你用的編程語言是Python,Pandas是個好庫;如果是R語言,dplyr包也是個不錯的選擇。換句話說,語言和庫只是工具,但你用它們做的事是一樣的:
導入數據
添加多個數據集
檢測缺失值
檢測異常值
填補缺失值
保證數據質量
2.探索性數據分析
數據科學的另一個重要技能是探索性數據分析(EDA)。當有人扔給你一份數據時,你對這份數據完全陌生,又沒有足夠的業務背景,會不會感覺無從下手?如果你什么都不管,直接把數據喂給各種模型,卻發現效果不好,因為你沒有好的特征,那么你可能需要的是數據探索。
EDA是對已有數據在盡可能少的假定下進行探索,通過各種可視化方法探明數據結構、規律的一種數據分析方法,它能讓你建立起對數據的直覺。從效果上來看,EDA允許分析師從數據中得出結論以推動業務影響,這個影響可以是客戶群分析,也可以是季節性銷售趨勢。讓自己和公司獲得意料之外的驚喜,這是EDA的魅力。
對于EDA,Python用戶可以用Pandas和Matplotlib,R語言用戶可以用ggplot2包。一個精通EDA的人需要熟練這些技巧:
為數據分析制定問題
表明趨勢
表明變量間的協變
用可視化結果(散點圖、直方圖等)有效地傳達結果
3.交互式數據可視化
交互式數據可視化包括儀表板等工具。這些工具對數據科學團隊以及更多面向業務的終端用戶都很有用。儀表板允許數據科學團隊進行協作,并一起商議見解。更重要的是,它們為面向業務的客戶提供了一種交互式工具,后者往往專注于戰略目標,而非技術細節。一般情況下,數據科學項目的最終呈現應該是以儀表板的形式出現的。
對于Python用戶,Bokeh和Plotly庫非常適合創建儀表板。對于R用戶,請務必查看RStudio的Shiny軟件包。無論是那種,你的儀表板上都要遵循:
包含和客戶需求相關的各項指標
創建有用的feature
布局合理(如F-pattern可以在客戶掃視時,讓他們記住大部分內容)
切換演示文稿頻率合理
生成報告或其他自動操作
4.機器學習
機器學習是數據科學的重要組成部分。當然,這不是說你現在就得開始學習構建復雜的深度學習模型,事實上,大多數工作都不需要你有太高的機器學習知識水平。線性回歸、邏輯回歸,會用這些簡單算法就夠了,而且這些東西也更容易讓你的領導理解,理解是溝通的基礎。
如果要在這方面積累經驗,記得做客戶留存預測、貸款預測、欺詐檢測這類項目。這不是說預測植物品種這類問題不好,只是前者能幫你積累更多業務常識。
如果你是Python用戶,用Scikit-learn庫。對于R用戶,用Caret包。同樣的,下面是必須要呈現的內容:
為什么要選這個特定模型
把數據拆成訓練集和測試集(k倍交叉驗證),避免過擬合
選擇正確的評估指標(AUC、adj-R2、混淆矩陣等)
調整超參數
5.溝通
溝通是所有工作的必備技能。優秀數據科學家和普通數據科學家的區別在于前者能有效傳達結果,而后者不能。無論展示的模型有多花哨,如果你看到客戶后連嘴巴都張不開,他們又怎么會支持你的成果?PPT和筆記本電腦是溝通必備工具,你也可以用Jupyter Notebook或RMarkdown文件和客戶交流項目。
確保了解你的目標聽眾是誰,向高管們展示和向機器學習專家展示完全不是一碼事。一定要掌握這些技能:
了解目標受眾
提供相關可視化
PPT不要過長
PPT演示流暢
結果和業務影響緊密結合(降低成本?增加收入?)
辛辛苦苦做完項目后,不要把文件隨便亂丟,要養成收集、記錄的好習慣。你可以用Github Pages把文件免費轉成靜態網頁,為你的潛在雇主提供了解你的資料。
最后,只要是入了數據的門,無論短時間內崗位是不是稱心如意,接受了這份工作就保持積極態度,繼續不斷嘗試項目,快樂工作,快樂找更好的工作!
-
數據分析
+關注
關注
2文章
1460瀏覽量
34114 -
數據科學
+關注
關注
0文章
166瀏覽量
10082
原文標題:想成為數據科學家?這是你必須重視5種技能
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論