這是一個真實的故事。
今天Reddit機器學(xué)習(xí)板塊最火的話題,莫過于一個“亡于AI”的帖子,作者分享了發(fā)生在自己公司的一個故事:
在A公司有一支傳統(tǒng)的X團隊,他們使用本地ERP工具和傳統(tǒng)編程語言進行高級分析,整個工作流程非常流暢,工具也非常有效,都是基于非常深入的業(yè)務(wù)和領(lǐng)域?qū)I(yè)知識而設(shè)計的。
隨后來了一支Y團隊。這是一個全新的、充滿雄心的數(shù)據(jù)科學(xué)團隊,他們認為,X團隊的工具不夠fashion,完全可以用幾個R腳本 + 一個定制的 ML 平臺,直接干掉 X 團隊現(xiàn)在使用的工具。
Y團隊的模型非常簡單,甚至有點過于簡單了。但看起來,明顯比X團隊使用的計量經(jīng)濟模型更加 “fashion”,加上 Y 團隊頂著“機器學(xué)習(xí)”和 “數(shù)據(jù)科學(xué)”的 光環(huán),因此領(lǐng)導(dǎo)層決定讓 Y 團隊對現(xiàn)有的相關(guān)分析平臺進行大規(guī)模的改造。
但是,Y團隊并沒有類似這種大規(guī)模轉(zhuǎn)型的經(jīng)驗,而且他們還拒絕與X隊合作。最終,作者預(yù)測這個項目的結(jié)局很可能是走向失敗的,并會在整個財務(wù)和人員的角度,對整個公司造成嚴重傷害。
在當(dāng)前環(huán)境下,數(shù)據(jù)科學(xué)社區(qū)帶出來的風(fēng)氣,對AI的盲目崇拜,也是導(dǎo)致上述現(xiàn)象頻發(fā)的原因。
今天新智元將A公司的慘痛教訓(xùn)詳細還原,以警醒AI從業(yè)者。
X團隊:工具老派,專業(yè)知識夠硬
A公司已經(jīng)存在幾十年了,它不是其領(lǐng)域中最大的公司,但也備受尊敬。自90 年代以來,風(fēng)險分析和投資組合優(yōu)化一直是A公司業(yè)務(wù)的核心,他們有一支由 30名左右的分析師組成的大型團隊,每天都在執(zhí)行這些任務(wù)。
這些分析師使用由大型ERP公司 (SAP、Teradata、Oracle、JD Edwards 等) 或大型技術(shù)咨詢公司 (德勤、埃森哲、普華永道、凱捷等) 與內(nèi)部工程團隊合作為他們實施的ERP解決方案。
使用的工具都是老一套的:在預(yù)置型服務(wù)器甚至大型機上運行經(jīng)典的 RDBMS,使用 COBOL 編寫的代碼,F(xiàn)ortran 語言,ABAP 或 SPSS 之類的專有工具…… 你懂的。但模型和分析函數(shù)相當(dāng)復(fù)雜,與已發(fā)表的學(xué)術(shù)論文相比,它們令人驚訝地處于前沿。最重要的是,它們與公司的企業(yè)生態(tài)系統(tǒng)非常吻合,并且是基于多年深厚的領(lǐng)域知識磨練而成的。
他們擁有一支由幾名工程師 (從上述軟件和咨詢公司挖來的) 和產(chǎn)品經(jīng)理 (從使用這些軟件的經(jīng)驗豐富的分析師和管理人員中挖來,或從商業(yè)競爭對手挖來的) 組成的技術(shù)團隊來維護和運行該軟件。
這些人的技術(shù)可能是老派的,但總的來說,他們非常非常了解這個領(lǐng)域和公司的整體架構(gòu)。他們指導(dǎo)公司進行了幾次大規(guī)模的升級和遷移,而且總是能按時交付,沒有太多的開銷。
雖然有幾次他們出了bug,但他們知道如何快速解決。事實上,在所處的行業(yè)利基市場中,他們以其專業(yè)知識而聞名,并與他們不得不打交道的各種供應(yīng)商保持著非常好的關(guān)系。
有趣的是,盡管每天都要使用統(tǒng)計建模和優(yōu)化算法進行處理,但參與其中的分析師、工程師或產(chǎn)品經(jīng)理都沒有自稱為數(shù)據(jù)科學(xué)家或機器學(xué)習(xí)專家。這主要是一種文化傳統(tǒng):他們所獲得的專業(yè)知識早于 2010 年左右開始的數(shù)據(jù)科學(xué) / ML 的炒作,并且他們的大部分技能是使用專有的企業(yè)工具而不是當(dāng)今流行的開源工具獲得的。
他們中的一些人接受過正式的統(tǒng)計培訓(xùn),但大多數(shù)人來自工程或領(lǐng)域背景,并在工作中學(xué)習(xí)了統(tǒng)計學(xué)。讓我們稱這支團隊為 “X 團隊”。
Y團隊:試圖用AI解決所有數(shù)據(jù)問題
在2010年代中期左右,A公司開始出現(xiàn)一些嚴重的令人焦慮的問題:盡管對于這樣規(guī)模的一家公司來說它做得很好了,但整體經(jīng)濟和人口發(fā)展趨勢正在縮小其客戶群,一些所謂的破壞者開發(fā)出了一個新的應(yīng)用程序和業(yè)務(wù)模式,開始嚴重侵蝕他們的收入。
必須采取適當(dāng)?shù)拇胧﹣戆矒峁蓶|和投資者。A公司已經(jīng)有了一個不錯的網(wǎng)站和一個相當(dāng)時髦的應(yīng)用程序,還有什么可以做的呢?領(lǐng)導(dǎo)層決定,現(xiàn)在是時候讓人工智能 (AI) 和機器學(xué)習(xí) (ML) 成為公司業(yè)務(wù)的核心部分了。
這時候,一位雄心勃勃的經(jīng)理——沒有科學(xué)或工程背景,只是幾年前簡短地玩過一個推薦系統(tǒng)——被選為創(chuàng)建數(shù)據(jù)科學(xué)團隊的負責(zé)人,組建起一支 “Y 團隊”。
Y團隊主要由內(nèi)部員工組成,他們決心要成為數(shù)據(jù)科學(xué)家,并在加入團隊之前完成了 Coursera 認證或 Galvanize 新兵訓(xùn)練營,此外還有一些剛獲得博士或碩士學(xué)位的新人。他們不喜歡學(xué)術(shù)界,想要在工業(yè)界一展身手。而且他們都是非常聰明的人,會寫很棒的博客文章,也會發(fā)表鼓舞人心的 TED 演講,但總體而言,他們幾乎沒有任何實際的行業(yè)經(jīng)驗。
就像現(xiàn)在流行的那樣,這個團隊是數(shù)據(jù)科學(xué)組織的一部分,繞過 CIO 和任何技術(shù)或商業(yè)副總裁,直接向 CEO 和董事會匯報,因為A公司想在即將召開的股東大會上宣稱這個團隊是 “數(shù)據(jù)驅(qū)動” 和 “AI 驅(qū)動” 的。
在之前3到4年的時間里,Y 團隊開發(fā)了一些 Python 和 R 腳本。他們的架構(gòu)經(jīng)驗基本就是將 Flask 連接到 S3 bucket 或 Redshift tables,其中幾位更有資源的人學(xué)習(xí)如何將他們的模型插入到 Tableau 或如何啟動 Kuberneties pod。但他們并不擔(dān)心:前面提到的經(jīng)理(現(xiàn)在的團隊主管),是一個玩公司政治和自我推銷的高手。
不管 Y 團隊生產(chǎn)的可操作的成果有多少,或者他們部署到生產(chǎn)中的代碼有多少,他總是支持他們,并確保他們有充足的資金。
事實上,他現(xiàn)在已經(jīng)制定了一個宏偉的計劃,即建立一個通用機器學(xué)習(xí)平臺,用來解決公司的所有數(shù)據(jù)問題。
但是,真正的問題才剛開始。
沖突產(chǎn)生:互相看不對眼,拒絕溝通和合作
Y 團隊中一些頭腦清醒的成員,在搜索了他們的行業(yè)名稱和 “數(shù)據(jù)科學(xué)” 這個詞后,意識到貝葉斯模型是風(fēng)險分析的主要解決方案,而且已經(jīng)有一個漂亮的 R 語言工具包可以用,他們在 R-Bloggers.com 研究了相關(guān)的教程。
其中一位成員甚至在 Kaggle 數(shù)據(jù)競賽平臺上提交了一個 Bayesian 分類器內(nèi)核 (在排行榜上排名第 203 位),并渴望將他的新發(fā)現(xiàn)的專業(yè)知識應(yīng)用到實際問題中。
他們將這個想法提交給他們的主管,主管認為這是ML平臺的一個完美用例。他們立即開始工作,完全沒有費心去了解A公司是否有人已經(jīng)在做風(fēng)險分析。因為他們的組織是獨立的,所以他們在獲得資金之前并不需要和任何人核查這些問題。
盡管他們所做的本質(zhì)上只是一個樸素貝葉斯分類器,但為了給董事會留下深刻印象,他們在項目名稱中加上了ML這個術(shù)語。
然而,隨著他們工作的進展,緊張的氣氛開始凸顯。
他們要求數(shù)據(jù)倉庫和CA分析團隊為他們構(gòu)建 pipeline,最終這個項目的消息傳到了 X 團隊耳中。X團隊最初很興奮:他們愿意竭誠與 Y 團隊合作,并希望在自己熟悉的工具包中添加 ML。產(chǎn)品負責(zé)人和分析師也完全支持:他們看到了加入這個數(shù)據(jù)科學(xué)熱潮的機會,而這時他們不停地聽到的熱詞。
但由于傲慢和不安全感混合在一起的奇怪情緒,Y 團隊拒絕與 X 團隊合作,也拒絕與 X 團隊分享任何長期目標(biāo),即使他們?nèi)チ斯镜钠渌块T就他們創(chuàng)建的新模型做演示和教程展示。
X 團隊生氣了:從他們對 Y 團隊模型的觀察來看,Y 團隊的方法幼稚得無可救藥,在生產(chǎn)中幾乎沒有擴大規(guī)模或可持續(xù)發(fā)展的可能性,而他們確切地知道如何幫助 Y 團隊實現(xiàn)這一點。考慮到他們對 DevOps 和持續(xù)交付的熟悉程度,將模型部署到生產(chǎn)環(huán)境中需要幾天的時間。
盡管他們自己的技術(shù)已經(jīng)過時了,但 X 團隊還是足夠聰明,能夠?qū)⑵洳迦氲浆F(xiàn)有的架構(gòu)中。此外,該模型的輸出并沒有考慮公司的業(yè)務(wù)將如何使用它,或如何將它傳遞到下游系統(tǒng),并且為了讓模型被采用,產(chǎn)品所有者可能付出大量精力。
但是 Y 團隊不聽,他們的領(lǐng)導(dǎo)拒絕任何溝通的嘗試,更不用說合作了。Y 團隊表現(xiàn)出來的態(tài)度是:“我們是最先進的 ML 團隊,你們是傳統(tǒng)的服務(wù)器。我們不需要你的意見。“Y團隊似乎完全無視領(lǐng)域知識,或者更糟的是,他們認為所有這些領(lǐng)域知識只需要掌握一些業(yè)務(wù)指標(biāo)的定義就夠了。
X 團隊感到沮喪,試圖向領(lǐng)導(dǎo)層表達他們的擔(dān)憂。但是,盡管他們掌握著 A 公司的業(yè)務(wù)流程中重要的一環(huán),但他們只是一個幾十人左右的團隊,而且他們與最高管理層也隔了好幾層,在這個擁有1000名員工的強大組織中,他們的聲音不可能被管理層聽到。
與此同時,Y團隊里這位勢不可擋的主管正在做他最擅長的事情:玩弄公司政治。盡管他的團隊實際交付的東西很少,但他已經(jīng)說服董事會,所有的分析和優(yōu)化任務(wù)現(xiàn)在都應(yīng)該遷移到尚未交付的 ML 平臺上。
由于大多數(shù)領(lǐng)導(dǎo)已經(jīng)知道 X 團隊和 Y 團隊的目標(biāo)存在重疊,他的觀點不再是 Y 團隊要有新的洞察力,而是他們將以更準(zhǔn)確的基于云的ML工具取代基于統(tǒng)計學(xué)的工具。
盡管學(xué)術(shù)文獻中沒有支持樸素貝葉斯方法比 X 團隊使用的計量經(jīng)濟學(xué)方法更好的觀點,更不用說貝葉斯優(yōu)化肯定會比生產(chǎn)中運行的 QP 求解器更好的怪異觀點了。
等死,還是找死?
X 團隊不知道,最初的貝葉斯風(fēng)險分析項目現(xiàn)已發(fā)展成為一項價值數(shù)百萬美元的重大改革計劃,包括最終取代 X 團隊支持的所有工具和功能,以及必要的云遷移,CIO 和幾位業(yè)務(wù)副總裁均已就位。
由于 Y 團隊沒有工程技能,于是打算公司外部找一個沒有人聽說過的創(chuàng)業(yè)公司,把構(gòu)建平臺的任務(wù)外包給他們。另外,選外包公司要非常慎重,因為如果選擇任何知名的外包公司,老板立馬就會意識到 Y 團隊不行,發(fā)現(xiàn)其實 X 團隊比 Y 團隊更適合這種規(guī)模的遷移。
Y 團隊沒有任何主流 ERP 部署的經(jīng)驗,更缺乏相關(guān)領(lǐng)域的知識,但他們的任務(wù)卻是從根本上改變 A 公司現(xiàn)有核心業(yè)務(wù)的業(yè)務(wù)流程。他們的模型實際上比 X 團隊要差,并且與實際情況真正需要的解決方案相比,他們的體系結(jié)構(gòu)簡單到令人絕望。
更打臉的是,通過貝葉斯分析、以及基于目前所有的證據(jù)都表明一個更讓他們寒心的事實:Y 團隊成功的可能性等于 0。
也許,該項目最好的是及時被終止,但仍然損失了超過 5000 萬美元,領(lǐng)導(dǎo)層換血,數(shù)十人被解雇;最壞的結(jié)果無疑就是整個公司陷入困境。鑒于風(fēng)險分析和投資組合優(yōu)化對公司 A 的收入流的重要性,它可能不會破產(chǎn),但會失去其大部分業(yè)務(wù)和員工。
古話說得好 “不上ERP等死,上了ERP找死”。錯誤實施 ERP 導(dǎo)致公司垮掉的大公司并不少見,例如 National Grid US,SuperValu 和 Target Canada。
結(jié)局
Reddit發(fā)帖的作者認為,這次崩潰的核心驅(qū)動力確實來自于對數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)模型以及 AI 的承諾的盲目信仰,以及在機器學(xué)習(xí)群體中非常普遍的炒作和自我推銷的整體文化。
對機器學(xué)習(xí) / 數(shù)據(jù)科學(xué)的過度關(guān)注需要為項目失敗負責(zé)嗎?
在 Reddit 的評論里,一些人認為這個鍋技術(shù)不應(yīng)該背!完全就是領(lǐng)導(dǎo)者的決策失誤。因為在這個案例中,把機器學(xué)習(xí)、數(shù)據(jù)科學(xué)換成其他任何一種新興的技術(shù),最終的結(jié)局很可能是相同的。
作者也認為,不論機器學(xué)習(xí)也好、數(shù)據(jù)科學(xué)也好,只要能放在正確的場景中,確實可以正確的得償所愿。將先進的機器學(xué)習(xí)技術(shù)、放在合適的場景中、并將成本控制在合理的范圍內(nèi)卻拉低公司競爭能力的情況,沒有理由發(fā)生。
此外,作者還認為,出現(xiàn)這種情況的原因既有公司決策問題,也有對AI的盲目崇拜問題,以下三點可能是公司引入AI之前應(yīng)該警醒的教訓(xùn):
認為數(shù)據(jù)科學(xué)團隊?wèi)?yīng)該獨立運作。過度自治導(dǎo)致和公司業(yè)務(wù)、其他團隊脫節(jié)。
由于對機器學(xué)習(xí)和數(shù)據(jù)科學(xué)的過度炒作,導(dǎo)致人們以為數(shù)據(jù)科學(xué)家是個全能型人才,啥都會。再有機器學(xué)習(xí)能力的加持,哇!簡直沒有什么問題是這位數(shù)據(jù)科學(xué)家不能解決的。
過度關(guān)注工具和基礎(chǔ)知識而缺乏深度的經(jīng)驗。一個人可能了解 Python、R、Tensorflow、Shiny 等編程工具;有 Coursera 證書;寫過點贊好幾千的數(shù)據(jù)科學(xué)、機器學(xué)習(xí)文章,但根本對實際問題一無所知。如今的數(shù)據(jù)科學(xué)面試題基本都是:解釋 p 值;解釋彈性網(wǎng)絡(luò)回歸;如何在 sklearn 中使用模型… 拜托,任何會打字的人都能在 Stackoverflow 或 Cross-Validated 上查看這些問題的答案。實際上面試應(yīng)該這樣提問:為什么投資組合優(yōu)化使用 QP 而不是 LP?預(yù)測是如何影響客服水平的?推薦引擎如何決定什么時候該基于內(nèi)容、何時使用協(xié)同過濾...
AI有風(fēng)險,引入需謹慎。
-
編程
+關(guān)注
關(guān)注
88文章
3628瀏覽量
93814 -
AI
+關(guān)注
關(guān)注
87文章
31141瀏覽量
269478 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132772
原文標(biāo)題:AI死亡啟示錄
文章出處:【微信號:gh_211d74f707ff,微信公眾號:重慶人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論