盡管大數據分析技術取得了驚人的進步,但我們在很大程度上仍需要手動來完成重要任務,例如數據轉換和數據管理。隨著數據量的增長,手動完成任務與自動化產生的生產力差距越來越大,這使得以人工智能和機器學習為基礎的自動化趨勢越來越有市場。機器學習可以幫助縮小這一差距嗎?
坦率地說,數據轉換和數據管理問題頗具挑戰性。各行各業的公司都渴望將機器學習與他們的數據庫結合使用,以獲得競爭優勢。但是,數據不干凈、數據未集成、不可比較和不匹配的數據問題層出不窮,使公司的大數據計劃陷入困境。
許多從事機器學習的數據科學家花費了90%的時間來查找、集成、修復和清理其輸入數據。 人們似乎沒有意識到數據科學家不再是數據科學家,而是成為了數據集成商。
不過也有一個好消息,機器學習本身可以幫助機器學習。這個想法是利用算法的預測能力來模擬人類數據處理。這不是100%完美的解決方案,但它可以幫助緩解工作強度,讓數據科學家轉向真正的創新工作。
您可以在任何你能買到的地方購買ML,通過使用ML來來幫助您完成ETL的轉換部分。
轉換和管理數據
雖然它們在某些方面是相似的,但是數據管理和數據轉換之間有重要的區別。數據轉換是數據集成過程中的第一步,其目標是將異類數據轉換為通用的全局模式,組織可以提前制定該模式。自動腳本通常用于將美元轉換成歐元,或將英鎊轉換成公斤。
轉換階段之后,分析人員開始管理和分析數據。第一步通常涉及運行“match/merge”函數來創建與相同實體對應的記錄集群,例如將不同但拼寫相似的名稱分組在一起。像“編輯距離”這樣的概念可以用來確定兩個不同實體之間的距離。
然后使用更多的規則來比較各種實體,以確定給定記錄的最佳值。公司可以聲明最后一項是最好的,或者使用一組值中的公共值,這樣就可以產生最佳數據。
幾十年來,這種通用的兩步過程已在許多數據倉庫中使用,并且在現代的數據湖中繼續使用。但是,ETL和數據管理在很大程度上未能跟上今天的數據量以及企業面臨的挑戰規模。
例如,這需要預先定義一個全局模式,這阻礙了許多ETL的進行,這些工作試圖集成更多的數據源。在有些時候,程序員無法跟上必須設置的數據轉換規則的數量。
如果您有10個數據源,您還可以這樣做,但是,如果您有10,000個,那就不太可能了。
顯然,這需要一種不同的方法。
在小型企業中,您可能可以提前創建全局數據模式,然后在整個組織中強制使用它,從而省去了昂貴的ETL和數據管理項目的成本,一起放在數據倉庫中。但是,在大型組織中,這種自上而下的方法不可避免地會失敗。
即使大型企業中的業務部門彼此非常相似,它們記錄數據的方式也會有微小的差異。這些微小差異需要加以考慮,然后才能對其進行有意義的分析,這只是企業數據性質的反映。
因此業務靈活性需要一定程度的獨立性,這意味著每個業務部門都建立自己的數據中心。
例如,以豐田汽車歐洲公司(Toyota Motor Europe)為例,該公司在每個業務國家都有獨立的客戶支持組織。該公司希望為250個數據庫中的所有實體創建一個主記錄,其中包含40種不同語言的3000萬條記錄。
豐田汽車歐洲公司面臨的問題是,ETL和數據管理項目的規模是巨大的,如果按照傳統方式進行,將消耗大量的資源。該公司決定使用Tamr來幫助解決機器學習的挑戰,而不是數據轉換和使用數據管理過程。
ETL最大的問題是已經預先定義了全局模式,如何大規模地做到這一點是個問題。需要使用機器學習進行自下向上的匹配、自下而上地構造目標模式,從規模上看,這是唯一可行的方式。
這并不意味著機器學習提供了非常簡單的方法來解決這些棘手的數據集成問題。它仍然需要大量的數據和處理能力,您通常需要一個最優秀的員工來幫助指導軟件獲得正確的數據分析結果與決策見解。
這樣來看的話,成本并不便宜,但這不是最重要的。但還有一個問題是,不同的供應商之間該如何選擇。不同國家或地區的供應商提供的解決方案不同,而且出于一些宏觀因素,會出現不同的選擇。
出于安全考慮,這些數據問題不能完全外包給其他公司,所以不要指望完全用機器學習來處理數據,人在其中的作用還是非常重要的。人與機器學習合作才能夠使您的數據集成和管理效率最大化。
審核編輯 黃昊宇
-
工業自動化
+關注
關注
17文章
2470瀏覽量
67331 -
機器學習
+關注
關注
66文章
8438瀏覽量
132901 -
大數據
+關注
關注
64文章
8905瀏覽量
137635
發布評論請先 登錄
相關推薦
評論