“這一刻你正在應對什么挑戰?”這位前研究學者回應道:“嗯,我好像應聘成為首席數據科學家了,在一個沒有數據的公司里。”
這件事讓人啼笑皆非。離開了數據,數據科學家的存在毫無意義。這可不是件個例。本文將討論一些胸懷大志的數據科學家們(以及他們將來的雇主)真正需要了解的事情。
什么是數據工程?
如果數據科學是讓數據變得有用的一門學科,那么可以想像數據工程是將數據變得能用的一門學問。數據工程師們是提供幕后基礎設施支持的英雄們,這些基礎設施讓機器能夠記錄工作,讓海量的數據與數據科學工具包兼容儲存。
圖源:LinkedIn
與數據科學家不同,數據工程師們更傾向于不花費那么多的時間研究數據。與此相反,他們研究并處理那些承載數據的基礎設施。數據科學家是數據的管理者,而數據工程師們是對數據管道進行管理的人。
圖源:hackernoon
數據工程有三種主要工作方式:
· 使數據大規模地儲存(數據庫)和傳輸(數據管道)。
· 維護那些支持企業運作的數據流。
· 為數據科學提供數據集。
如果沒有數據,你無法研究數據科學。如果你被一個沒有數據和數據工程的機構聘用為數據科學總監,猜猜誰將會成為一名數據工程師?
數據工程的艱難之處在哪?
食品進購是件簡單的事,如果你只是煮你一個人的晚餐還好說,但規模擴大會將這件瑣事變得復雜無比——你該如何獲得,存儲和處理20噸的冰淇淋,且讓它一點都沒有融化?
相似地,“數據工程”在你為學校項目下載一個小的電子數據表時是相當容易的,但當你在處理千萬億字節規模的文件時就會讓人頭暈眼花。規模使其本身成為一個復雜的工程學科。
不幸的是,了解這兩個學科其中之一并不代表著你就對另一個的知識有所了解。
如果你有了跑去學習兩個學科的沖動,你可能成為了那個(令人倍有壓力且適得其反的)信念的受害者——數據專家們必須對數據的所有事項都有所了解。數據宇宙正在飛速地擴展著,現在是時候讓人們意識到這個領域有多么廣闊了,在數據領域的某個領域工作并不自動要求人們去成為全知全能的專家。
講這么多就是為了說明,這門學科包含了太多的知識,以至于最有決心的天才也無法全部理解和掌握。與其希望數據工程師們全知全能,不如問問彼此(也問問自己),“你是哪一類人?”讓我們齊心協力一起工作,而不是在這條路上孤軍奮斗。
但這不是一個絕佳的學習機會嗎?可能是。這取決于你對已知的學問有多大的感情。數據工程不同于數據科學,所以如果你是個未經受過數據工程訓練的數據科學家,那么你得從零開始。
這可能正是你所尋求的樂趣——只要你帶著開放的眼光一路前行。建立你的數據工程團隊可能要花費好幾年的時間。當然,有理由去學習新事物是件好事,但相同的是,你的數據科學“肌肉”可能會因此萎縮。
作為一個類比,想象你是一位能流利使用英日兩語的譯者。你被提供了一個叫做“譯者”的職位。當你來到崗位工作時,你發現你被聘來進行將普通話譯為斯瓦希里語的工作,而這兩種語言你都不會說。抓住機會成為一個四語達人可能是一件振奮人心且有益的事情,但請從現實的角度來思考你該如何有效地利用初級培訓。
換句話來說,如果一個公司沒有任何的數據或者數據工程師,那么接受首席數據科學家的工作會在你組建數據工程團隊時,為了成為一個數據工程師(你很可能還未達標),將你的數據科學家生涯擱置好幾年的時間。
最終,你會很驕傲地看著你所建的團隊,然后意識到你不再需要親自去處理那些細枝末節。那時你的團隊已經能夠成熟應對那些絕妙的神經網絡或者你讀博時研究的復雜巧妙的貝葉斯定理推論,你就只能袖手旁觀,看著他人完成目標。
給你一些小建議
· 弄清你正在接手的事物
如果你在考慮接受一個成為數據科學總管的工作,你第一個應該提出的問題是:“誰來保證我的團隊有數據能研究?”如果答案是你,嗯,至少你將知道自己的簽約將意味著什么。
· 請記住你是顧客
既然數據科學受數據支配,只有數據工程師們作為同事可能并不夠。如果那些同事們沒能將你認定為他們工作的一個關鍵客戶,你將面對的是一個艱難的斗爭。如果他們的態度讓你更多的感受到自己是一個博物館策展人,為了數據而保存數據,那這可不是一個好兆頭。
· 要有全局觀
誠然你是數據工程師們的關鍵客戶,但很可能你并不是他們的唯一客戶。現代企業使用數據推動業務發展,通常情況下,無需人為干預,數據就能很好地運轉。當你對公司的貢獻只是“可有可無”時,表現得好像世界都是圍繞著你和你的團隊轉的,這是不明智的。
· 堅持問責
在登記你新的十億字節之前,考慮與數據工程同事協商,讓他們對與你的合作負責。如果他們沒有將你拒之門外的反應,你的團隊就不太可能蓬勃發展。
編輯:hfy
-
數據
+關注
關注
8文章
7083瀏覽量
89201 -
數據工程師
+關注
關注
0文章
8瀏覽量
1200
發布評論請先 登錄
相關推薦
評論