編者按:斯克里普斯研究所數據科學家Michael Galarnyk討論了數據科學作品集應該包括哪些內容,如何提高作品集的吸引力等問題。
作品集是表明你是一頭數據科學獨角獸的方式
如何找到一份數據科學的工作?了解足夠多的統計學、機器學習、編程等知識,仍然不容易找到工作。我發現不少人可能具備了得到工作所需的技能,但沒有作品集。盡管簡歷很重要,作品集(你的數據科學技能的公開證明)對找工作幫助極大。即使你有推薦人,能夠向潛在雇主表明你能做什么,而不是僅僅告訴他們你可以做什么,仍然是很重要的。本文包含一些鏈接,其中許多數據科學的職業人士(數據科學管理者、數據科學家、社區大拿)及其他一些人談論作品集應該包括什么,如何吸引注意力。讓我們開始吧。
作品集的重要性
準備作品集的過程本身可以讓你學到東西,同時作品集還能幫你找到工作。從本文的主題出發,讓我們將作品集定義為你的數據科學技能的公開證據。這一定義來自于Mode Analytics blog的Marissa Gemma對DataCamp首席數據科學家David Robinson的訪談。David提到他是如何找到第一份工作的:
對我而言,最有效的策略是公開作品。我博士后期寫了一些博客,做了許多開源項目的開發,這些有助于為我提供數據科學技能的公開證明。但我得到我在業界的第一份工作是一個特別明顯的公開作品的例子。在我的博士期間,我在StackExchange系列網站很活躍,然后StackExchange的一個工程師搜到我的一個回答(一個解釋貝塔分布背后直覺的回答)。他對這一回答印象非常深刻,通過Twitter聯系了我,經過幾輪面試,我最終入職StackExchange.
你也許覺得這不過是一個孤例,但是你可能常常發現,你越活躍,碰到類似這樣的事情的概率就越大。正如David在自己的博客上所寫:
你做的公開工作越多,這樣的異常事件出現的概率就越大:有人注意到你的工作并向你推薦工作機會,或者正在面試你的某人聽說過你做的工作。
人們經常忘記軟件工程師和數據科學家同樣會google他們的問題。如果某些人通過查看你的公開作品解決了他們的問題,他們可能對你評價更高,并聯系你。
作品集可以滿足對經驗的要求
即使是初級職位,大部分公司也想要招至少有一點實際經驗的人。你可能看過類似下面的meme:
(譯文:初級職位開放招聘:面向畢業生。要求:5年經驗,6塊奧林匹克金牌,具有超能力。)
問題在于,如果你需要經驗獲得第一份工作,你如何獲得經驗?如果這個問題有答案的話,那么答案是項目。項目也許是工作經驗的最佳替代品,正如Will Stanton所說:
如果你沒有任何數據科學家的經驗,那么你絕對需要進行獨立項目。
事實上,當Jonathan Nolis面試候選人的時候,他想要聽應聘者描述最近的問題/項目:
我想要聽聽他最近做的一個項目。我會問他項目是怎么開始的,他如何確定值得為這個項目付出時間和精力,過程,結果。我也會問他從項目中學到了什么。我從這個問題的答案中獲取了很多信息:他是否可以講好一個故事,談談這一問題與大局的關系,說說他是如何處理其中碰到的難點的。
如果你沒有數據科學的相關工作經驗,最好的選擇是談談你最近做的一個數據科學項目。
列入作品集的項目類型
數據科學是如此廣闊的一個領域,很難知道招聘人員想看到什么樣的項目。Quora的數據科學管理者,William Chen在Kaggle的CareerCon 2018上發表了他的意見(youtu.be/xrhPjE7wHas):
我喜歡那些以超出家庭作業水準的方法,體現了對數據的興趣的項目。任何課程的大作業,你探索了一個有趣的數據集,找到了有趣的結果……在寫作部分用點心……我真的很喜歡看到找到有趣、新穎的東西的好文章……包括用一些可視化方法分享他們的工作。
很多人意識到了創建項目的價值,但很多人碰到的問題是從哪里得到有趣的數據集,得到之后做什么。Airbnb的數據科學家Jason Goodman,在他的博客文章Advice on Building Data Portfolio Projects(創建數據科學作品集項目的建議)中談論了許多不同的項目創意,并且給出了應該使用哪類數據集的良好建議。他的觀點與William一致,要使用有趣的數據。
我發現最好的作品集項目更偏重處理有趣的數據,而不是進行酷炫的建模。許多人基于財經數據或Twitter數據做一些事;這樣不是不行,但是數據內在地沒有那么有趣,所以你是在爬坡。
他博客文章中的另一個觀點是抓取網頁是獲取有趣數據的很好的方式。如果你對通過Python抓取網頁構建你自己的數據集感興趣,可以看看我之前的文章。如果你來自學術界,那么你提出的理論可以算是非常大的一個項目。William Chen在之前提到的視頻中談到了這一點。
Social Good Project的交通巡航數據科學
城市交通量的很大一部分來自尋找停車場的司機,還有等待乘客或趕去接乘客上車的司機。這些駕駛模式統稱為交通巡航(traffic cruising),它們是造成西雅圖市區擁堵的重要原因。Social Good Project的交通巡航數據科學項目,是我個人覺得很有意思的一個項目。當然還有許多有意思的項目。
不要列入作品集的項目類型
很多人都建議,不要在作品集中包含老套的項目。
Jeremie Harris在The 4 fastest ways not to get hired as a data scientist(應聘數據科學家失敗的4種最快方法)中寫道:
突出你在微不足道的概念證明類數據集上做的個人項目,我覺得很難想到比這更快的讓你的簡歷被扔到“絕對不招”那一堆的方法了。
如果你不清楚我說的是什么樣的數據集的話,那下面是一些給你帶來的傷害遠大于給你的幫助的項目:
泰坦尼克數據集上的存活分類
MNIST數據集上的手寫數字識別
iris數據集上的花的種類識別
使用這些數據集的話,你沒有太多在應聘者中脫穎而出的方法。確保列出新穎的項目。
泰坦尼克(A)、MNIST(B)、iris(C)分類
迭代作品集
Favio Vazquez寫過一篇出色的博客,談論他是如何獲得一份數據科學家工作的。當然,他的其中一條建議就是要有一個作品集。
要有一個作品集。如果你正找一份嚴肅、有償的數據科學工作,那就在真實數據上進行一些項目。如果可以,把它們發到GitHub上。除了Kaggle競賽,尋找你熱愛的東西,或者你想要解決的問題,并使用你的知識進行你的項目。
Favio的另一項有意思的發現是,在找工作的過程中,你應該不斷提升自己。
我大約申請了125份工作(老實說,也許你申請的更多),最終只有25-30個申請得到了回復,而其中一些回復不過是:謝謝,但很抱歉…… 在大約15次面試的機會中,我多少都學到了一些東西并提升了自己。雖然不得不應對大量拒絕,但是我挺喜歡面試的過程(坦率地說,不是所有面試都喜歡)。在整個求職過程中,我堅持每天編程,閱讀了很多文章,這些都很有幫助。
當你學到更多東西,自我得到了提升,你的作品集也應該更新。其他許多文章也給出了類似的建議。正如Jason Goodman所說:
公開發布項目并不意味著項目完結了。在發布之后,要勇于持續不斷地增補和編輯。
當你找工作時,這條建議尤其正確。有很多成功的故事,比如Airbnb的數據科學家Kelly Peng,她在找工作的過程中不斷提升自己。她的一篇博客統計了申請和面試的數量:
求職申請:475次
電話面試:50次
完成take-home challenge:9次
現場面試:8次
offer:2家
求職用時:6個月
很明顯,她申請了很多工作,并堅持不懈。她的文章甚至提到如何從面試經歷中持續學習。
記錄你被問到的所有面試題,尤其是你沒回答上來的問題。你可以再次失敗,但不要在同一地點失敗。你應該不斷學習并有所提高。
“如果你還沒得到面試機會,提交更多的申請,持續尋找學習和提升的方法。”
在一頁簡歷中收錄作品集
找到你的作品集的途徑之一是你的簡歷。所以我們來說說簡歷。一份數據科學簡歷應該聚焦于你的技術能力。簡歷為你提供了一個簡潔地體現資質、顯示你適合特定職位的機會。招聘人員會非常快速地瀏覽簡歷,你僅僅有很短的時間留下印象。完善你的簡歷可以增加你獲得面試機會的幾率。你需要確保簡歷的每個部分、每一行都是有效的。
Quora的數據科學管理人員William Chen就制作數據科學簡歷提出了9條建議(youtu.be/xrhPjE7wHas)。下面我將簡要地總結這9條建議,其中和項目、作品集有關的是第6、7、8條,也許第9條也可以算。
篇幅:將篇幅控制在一頁以內,使用單欄布局,這樣便于快速瀏覽。
目標:簡歷中不要包含“目標”。它并不能讓你脫穎而出,而且會擠占更重要的東西(技能、項目、經驗等)的空間。一般不需要寫求職信,除非你的求職信非常有個性。
課程:列出和工作描述相關的課程。
技能:不要給你的技能打分。如果你想要評價你的技能,使用熟練、熟悉之類的詞匯。你甚至完全可以不寫評價。
不要使用量化評分
技能:列出工作描述中提到的技能。你可以按照擅長程度排列技能。
項目:不要寫上老套的項目或者家庭作業類的項目。它們無法讓你脫穎而出。列出新穎的項目。
老套的項目
項目:列出結果和鏈接。如果你參加的是Kaggle競賽,列出百分比排名可以幫助閱讀你簡歷的人了解你在競爭中所處的位置。永遠別忘了加上相應的博客文章或論文的鏈接,這些有助于招聘人員深入了解你的項目(優先列出處理真實世界的復雜問題的項目,你從中學到新東西的項目)。
好的例子
注意,上圖中第二份簡歷作者列出了一個額外的鏈接,指向他的博客(more at ...),這是在簡歷中列入作品集的一種方法。
作品集:填上你在網絡站點的活動。最基本的是LinkedIn頁面,它有點類似簡歷擴展。GitHub和Kaggle頁面可以展示你的作品。你也可以加上其他站點的鏈接。你可以寫上關于你的GitHub倉庫的描述。加上你分享知識的站點的鏈接(medium,quora)。數據科學正是一個關于分享知識和向其他人溝通數據意味著什么的行業。你不必加上上面所有的內容,但是選擇一些列在你的簡歷上是很有必要的(后文將繼續討論這些站點)。
經驗:根據工作列出你的經驗。經驗是簡歷的核心,不過如果你沒有工作經驗,你應該怎么做?列出你的獨立項目,比如頂點項目(capstone project,譯者注,一些院校為學生開設的應用所學于實際工作的項目),獨立研究,理論工作,Kaggle競賽。如果你沒有工作經驗,這些可以作為替代。避免在簡歷中加上無關的工作經驗。
如果你想了解數據科學管理人員是如何審閱作品集和簡歷的,可以看下Kaggle的CareerCon 2018上的視頻:
視頻:youtu.be/kBR0EtGOkzc
審閱的簡歷:https://drive.google.com/drive/folders/1hqrBBZAxnhckto-gU1EKtXeesmtQqX9i
社交媒體的重要性
這一節的性質與上一節類似。GitHub頁面、Kaggle頁面、Stack Overflow頁面等可以支持你的簡歷。列上網絡頁面對招聘人員來說是一個良好的信號。
正如David Robinson所說:
通常而言,當我評估候選人時,我很樂意看看他們公開分享的東西,即使分享的東西沒有經過精心打磨或者并未完成。分享一些東西幾乎總是比什么都不分享要好。
Will Stanton指出了數據科學家喜歡看到這些的原因:
數據科學家使用這些工具分享他們自己的作品,尋找問題的答案。如果你使用這些工具,那么你正向數據科學家發送信號:你是其中一員,即使你并沒有作為數據科學家工作過。
數據科學很大一部分是關于溝通和展示數據,所以這些網絡頁面是很有用的。這些平臺除了可以展示你的經驗,同時也能幫助你引起注意,讓別人發現你的簡歷。人們確實通過多種渠道在網上找到你的簡歷(LinkedIn、GitHub、Twitter、Kaggle、Medium、Stack Overflow、Tableau Public、Quora、Youtube等)。你甚至會發現這些網站可以互相補充。
GitHub
(上為Jennifer Bryan和Yuan (Terry) Tang的GitHub頁面)
GitHub頁面是體現你能力的強有力的信號。在簡歷的項目部分,人們經常留下他們所寫的代碼的GitHub鏈接。你也可以在GitHub上放上你寫的文檔和markdown。GitHub讓人們查看你創建的項目,以及你是如何創建它的。在一些公司,招聘人員會查看申請人的GitHub。這是向雇主顯示你不是假陽性樣本的另一種方式。如果你在GitHub上花上一些時間,你可以比別人得到更好的評價。
值得一提的是,你需要README.md之類的東西描述你的項目,因為數據科學的很大一部分在于溝通結果。確保README.md文件清除地描述了你的項目是什么,你的項目做什么,以及如何運行你的代碼。
Kaggle
參加Kaggle競賽,創建核(kernel),參與討論都是展示你作為數據科學家的能力的方式。需要強調的是,正如Colleen Farrelly在一個quora問答中指出的,Kaggle和業界的項目不一樣。Kaggle競賽是處理好的任務,為你獲取數據,同時為你清洗數據至可用的格式。Kaggle競賽讓你實踐數據分析,設計模型。Reshama Shaikh寫過一篇要不要參加Kaggle競賽的文章,其中提到了Kaggle競賽的價值:
沒錯,參加Kaggle競賽并不能證明你勝任數據科學家的工作。參加一門課程、出席一次會議、分析一個數據集、閱讀一本數據科學的書也不能。參加競賽增加了你的經驗,增強了你的作品集。它是你其他項目的補充,而不是數據科學技能集的唯一證明。
同樣,許多Kaggle宗師持續參加Kaggle競賽也是有理由的。
不像簡歷那樣受篇幅所限,LinkedIn頁面讓你可以更詳細地描述你的項目和工作經驗。Udacity有一篇完善LinkedIn頁面的指南(How to Stand Out on LinkedIn)。LinkedIn的一個重要部分是它們的搜索工具,為了能夠在搜索結果中出現,你的個人頁面必須要有相關的關鍵詞。招聘人員常常在LinkedIn上找人。LinkedIn可以讓你查看哪些公司曾經搜過你,哪些公司看過你的個人頁面。
除了便于公司搜索到你,LinkedIn同時提供了許多其他特性,例如請求推薦。Jason Goodman在他的文章Advice on Applying to Data Science Jobs(申請數據科學工作的建議)中提到,使用LinkedIn間接請求推薦:
我從未,從來沒有在沒有內推的情況下申請任何一家公司……一旦我對某家公司感興趣,我就用LinkedIn查找在那家公司的一度聯系人或二度聯系人。我會給他發消息,請他談下在那家公司工作的體驗,以及,如果可能的話,是否可以幫我聯系數據科學團隊中的某人。只要有可能,我會和他面談(咖啡或午飯)而不是通過電話。順便提下,Trey Causey最近寫了一篇關于如何請求這類會面的文章。我不會直接請求工作,但他們通常會問我的簡歷,或者幫我內推,或者把我介紹給想要招人的主管。如果他們看起來不樂意做這些……我會直接感謝他們抽出時間見我,然后進行下個日程。
注意他沒有直接請求內推。盡管常見的應聘建議說申請工作時要找內推,非常重要的是你仍然需要作品集,經驗,或勝任工作的某種證明。Jason甚至在上面的文章中提到了作品集的重要性,他寫的另一篇文章也提到了這點。
在面試了多家AI公司之后,Aman Dalmia領悟到了類似的道理:
網絡不是給人發消息,讓人給你內推。我剛開始常犯這個錯誤,直到我讀到了Mark Meloon的文章Climbing the Relationship Ladder to Get a Data Science Job,其中他提到了建立真正的聯系的關鍵在于首先提供幫助。
他提到的另一點是LinkedIn可以幫你推廣你的內容/作品集。
網絡的另一個關鍵步驟是推廣你的內容。例如,如果你擅長某事,寫關于它的博客,然后在Facebook和LinkedIn上分享。它不僅幫助其他人,它也可以幫助你。
Medium和其他博客平臺
有某種形式的博客極有幫助。數據科學很大一部分是關于溝通和展示數據。寫博客是練習這一技能的方式,也是展示你勝任這一技能的方式。描述一個項目或者一個數據科學主題讓你可以和社區分享你的心得,同時鼓勵你寫下進展和想法。這是面試時用的到的技能。
正如David Robinson所言:
寫博客是你練習相關技能的好機會。
數據清洗:處理多種多樣的數據集的一大益處是你學習處理“原始”數據,也許它是期刊文章的附件,或者電影字幕。
統計學:處理不熟悉的數據讓你有機會將統計學方法應用于實踐之中,撰寫溝通和傳授概念的博客幫助你建立自己的理解。
機器學習:使用過一次某個預測算法和將其應用到多種問題上有著很大的區別,這需要你理解你為什么選擇一種算法,不選擇另一種。
可視化:你制作的圖形能讓人看到,會鼓勵你開始完善它們,乃至建立你自己的風格。
溝通:你獲得了寫作的經驗,聯系如何結構化數據驅動的主張。這也許是和寫博客最相關的技能,因為它很難通過其他途徑練習。并且,它是任何數據科學職位不可或缺的部分。
通過撰寫博客,你可以練習和其他人交流你的發現。同時這也是另一種推廣自己的形式。我以前寫的博客使用Scrapy自建數據集和Python Environment Management with Conda(基于Conda管理Python環境)讓我學到了很多東西,也讓我得到了許多通常得不到的機會。我發現寫博客的一個主要好處是,人們通過博客的評論指出我的項目的問題,并向我提出改進的建議,這樣,就不用等到面試中,讓面試人員指出我的缺陷和問題了。另一個更明顯的好處是,在寫博客的過程中,你通常需要閱讀大量關于數據科學和機器學習方面的博客文章,并在此過程中學到很多東西。
至于博客的平臺,我推薦使用Medium。Manali Shinde在她的博客文章How to Construct a Data Science Portfolio from Scratch(如何從頭開始構建數據科學作品集)中給出了一個很好的選擇Medium寫博客的理由:
我也想過基于WordPress或Squarespace之類的工具創建自己的網站。盡管使用這些平臺來托管你自己的作品集很棒,但我想要找一個能夠讓更多人看到的地方,一個相當不錯的標簽系統,能把我的內容傳達給更多人。很幸運,如我們所知,Medium符合這些條件(并且它是免費的)。
如果你知道寫什么,我建議你看下David Robinson的建議。
twitter.com/drob
(譯文:如果同一段代碼寫過3次,寫一個函數。如果同樣的建議你給過3次,寫一篇博客。)
多刷刷Twitter,給你提供了認識同一領域的人,乃至和他們互動的機會。你也可以在Twitter上推廣你的博客,這樣你的作品集就有更多被看到的機會。和人在Twitter上互動的機會很多。Reshama Shaikh寫過一篇很有名的博客First Data Science Job,其中提到:
David Robinson會很慷慨地轉推你的第一篇數據科學文章。一個超過兩萬關注者的轉推,這是一個無法抗拒的提議。
除了推廣自己,Twitter還有其他用途。Data Science Renee有一篇文章How to use Twitter to Learn Data Science (or Anything)。這是一篇很有洞察力的關于如何使用Twitter學習技能的文章。當然她的文章也提到了Twitter對她的網絡和得到機會的幫助。
我收到了在播客和博客中受訪的邀請(其中一些很快就要發表),合同工作的邀請,免費出席會議的邀請(很不幸我去不了,但我仍然很興奮能收到邀請)。業界的“知名”人士聯系我,以某種方式一起合作。
Tableau Public
不是每份數據科學工作都用Tableau之類的BI工具。然而,如果你打算申請的工作要用到這些工具,值得注意的是有網站可以讓你發布公開的面板(dashboard)。例如,如果你了解Tableau,你可以在Tableau Public上發布一些面板。盡管很多公司可能允許你在工作中再學習Tableau,具備Tableau技能的公開證據是有幫助的。如果你想查看一些Tableau Public頁面的優秀例子,可以看下Orysya Stus和Brit Cava的頁面。
結語
記住作品集是一個過程。不斷改進
長期以來,一份漂亮的簡歷都是向潛在雇主展示你的技能的主要工具。今時今日,有更多展示技能和得到工作的方式。作為公開證據的作品集是獲得你通常難以得到的機會的一種方法。特別強調,作品集是一個迭代的過程。隨著你知識的增長,你的作品集也應該隨之更新。永遠不要停止學習和成長。甚至這篇博客文章本身都會因為反饋和知識的增加而更新。如果你想了解一些面試的建議/指南,可以看下Brandon Rohrer的advice on how to survive a data science interview(如何在數據科學面試中幸存的建議),Sadat的interview guide(面試指南),或者Springboard's advice(Springboard的建議)。
-
機器學習
+關注
關注
66文章
8438瀏覽量
132928 -
數據集
+關注
關注
4文章
1209瀏覽量
24793 -
數據科學
+關注
關注
0文章
166瀏覽量
10082
原文標題:如何打造數據科學作品集
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論