色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習如何幫助解決大數據轉換及管理問題?

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-24 23:20 ? 次閱讀

盡管大數據分析技術取得了驚人的進步,但我們在很大程度上仍需要手動來完成重要任務,例如數據轉換和數據管理。隨著數據量的增長,手動完成任務與自動化產生的生產力差距越來越大,這使得以人工智能機器學習為基礎的自動化趨勢越來越有市場。機器學習可以幫助縮小這一差距嗎?

坦率地說,數據轉換和數據管理問題頗具挑戰性。各行各業的公司都渴望將機器學習與他們的數據庫結合使用,以獲得競爭優勢。但是,數據不干凈、數據未集成、不可比較和不匹配的數據問題層出不窮,使公司的大數據計劃陷入困境。

許多從事機器學習的數據科學家花費了90%的時間來查找、集成、修復和清理其輸入數據。 人們似乎沒有意識到數據科學家不再是數據科學家,而是成為了數據集成商。

不過也有一個好消息,機器學習本身可以幫助機器學習。這個想法是利用算法的預測能力來模擬人類數據處理。這不是100%完美的解決方案,但它可以幫助緩解工作強度,讓數據科學家轉向真正的創新工作。

您可以在任何你能買到的地方購買ML,通過使用ML來來幫助您完成ETL的轉換部分。

轉換和管理數據

雖然它們在某些方面是相似的,但是數據管理和數據轉換之間有重要的區別。數據轉換是數據集成過程中的第一步,其目標是將異類數據轉換為通用的全局模式,組織可以提前制定該模式。自動腳本通常用于將美元轉換成歐元,或將英鎊轉換成公斤。

轉換階段之后,分析人員開始管理和分析數據。第一步通常涉及運行“match/merge”函數來創建與相同實體對應的記錄集群,例如將不同但拼寫相似的名稱分組在一起。像“編輯距離”這樣的概念可以用來確定兩個不同實體之間的距離。

然后使用更多的規則來比較各種實體,以確定給定記錄的最佳值。公司可以聲明最后一項是最好的,或者使用一組值中的公共值,這樣就可以產生最佳數據。

幾十年來,這種通用的兩步過程已在許多數據倉庫中使用,并且在現代的數據湖中繼續使用。但是,ETL和數據管理在很大程度上未能跟上今天的數據量以及企業面臨的挑戰規模。

例如,這需要預先定義一個全局模式,這阻礙了許多ETL的進行,這些工作試圖集成更多的數據源。在有些時候,程序員無法跟上必須設置的數據轉換規則的數量。

如果您有10個數據源,您還可以這樣做,但是,如果您有10,000個,那就不太可能了。

顯然,這需要一種不同的方法。

在小型企業中,您可能可以提前創建全局數據模式,然后在整個組織中強制使用它,從而省去了昂貴的ETL和數據管理項目的成本,一起放在數據倉庫中。但是,在大型組織中,這種自上而下的方法不可避免地會失敗。

即使大型企業中的業務部門彼此非常相似,它們記錄數據的方式也會有微小的差異。這些微小差異需要加以考慮,然后才能對其進行有意義的分析,這只是企業數據性質的反映。

因此業務靈活性需要一定程度的獨立性,這意味著每個業務部門都建立自己的數據中心

例如,以豐田汽車歐洲公司(Toyota Motor Europe)為例,該公司在每個業務國家都有獨立的客戶支持組織。該公司希望為250個數據庫中的所有實體創建一個主記錄,其中包含40種不同語言的3000萬條記錄。

豐田汽車歐洲公司面臨的問題是,ETL和數據管理項目的規模是巨大的,如果按照傳統方式進行,將消耗大量的資源。該公司決定使用Tamr來幫助解決機器學習的挑戰,而不是數據轉換和使用數據管理過程。

ETL最大的問題是已經預先定義了全局模式,如何大規模地做到這一點是個問題。需要使用機器學習進行自下向上的匹配、自下而上地構造目標模式,從規模上看,這是唯一可行的方式。

這并不意味著機器學習提供了非常簡單的方法來解決這些棘手的數據集成問題。它仍然需要大量的數據和處理能力,您通常需要一個最優秀的員工來幫助指導軟件獲得正確的數據分析結果與決策見解。

這樣來看的話,成本并不便宜,但這不是最重要的。但還有一個問題是,不同的供應商之間該如何選擇。不同國家或地區的供應商提供的解決方案不同,而且出于一些宏觀因素,會出現不同的選擇。

出于安全考慮,這些數據問題不能完全外包給其他公司,所以不要指望完全用機器學習來處理數據,人在其中的作用還是非常重要的。人與機器學習合作才能夠使您的數據集成和管理效率最大化。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 工業自動化
    +關注

    關注

    17

    文章

    2470

    瀏覽量

    67331
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    132901
  • 大數據
    +關注

    關注

    64

    文章

    8905

    瀏覽量

    137635
收藏 人收藏

    評論

    相關推薦

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統自身的性能”。事實上,由于“經驗”在計算機系統中主要以數據的形式存在,因此機器學習需要設法對數據進行分析學習,這就使得它逐漸成為智
    的頭像 發表于 11-16 01:07 ?481次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習
    的頭像 發表于 11-15 09:19 ?559次閱讀

    eda在機器學習中的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程中不可或缺的一部分。 1. 數據清洗
    的頭像 發表于 11-13 10:42 ?364次閱讀

    基于Kepware的Hadoop大數據應用構建-提升數據價值利用效能

    處理超大數據集。 Hadoop的生態系統非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數據應用。Hadoop廣泛應用于各種場景,包括數據處理和分析、
    的頭像 發表于 10-08 15:12 ?180次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數據</b>應用構建-提升<b class='flag-5'>數據</b>價值利用效能

    基于大數據與深度學習的穿戴式運動心率算法

    性能的關鍵手段。然而,在復雜多變的運動環境中,準確測量心率數據對于傳統算法而言具有較大的技術瓶頂。本文將探討如何運用大數據和深度學習技術來開發創新的穿戴式運動心率算
    的頭像 發表于 09-10 08:03 ?305次閱讀
    基于<b class='flag-5'>大數據</b>與深度<b class='flag-5'>學習</b>的穿戴式運動心率算法

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    本人有些機器學習的基礎,理解起來一點也不輕松,加油。 作者首先說明了時間序列的信息提取是時間序列分析的一個重要環節,目標是從給定的時間序列數據中提取出有用的信息和特征,以支持后續的分析和預測任務,可以
    發表于 08-14 18:00

    【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

    收到《時間序列與機器學習》一書,彩色印刷,公式代碼清晰,非常精美。感謝作者,感謝電子發燒友提供了一個讓我學習時間序列及應用的機會! 前言第一段描述了編寫背景: 由此可知,這是一本關于時間序列進行
    發表于 08-11 17:55

    機器學習中的數據分割方法

    機器學習中,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習
    的頭像 發表于 07-10 16:10 ?2067次閱讀

    機器學習中的數據預處理與特征工程

    機器學習的整個流程中,數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據預處理和特征工程的基本概念出發,詳細探討這
    的頭像 發表于 07-09 15:57 ?560次閱讀

    機器學習數據分析中的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從
    的頭像 發表于 07-02 11:22 ?748次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據
    的頭像 發表于 06-27 08:27 ?1705次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典算法與應用

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    設備的運行狀況,生成各種維度的報告。 同時,通過大數據分析和機器學習技術,可以對業務進行預測和預警,從而協助社會和企業進行科學決策、降低成本并創造新的價值。 當今時代,數據無處不在,
    發表于 06-25 15:00

    大數據在部隊管理中的運用有哪些

    智慧華盛恒輝大數據在部隊管理中的運用主要體現在以下幾個方面: 決策支持: 智慧華盛恒輝部隊管理可以利用大數據技術,對海量的數據進行分析,為決
    的頭像 發表于 06-23 09:53 ?1238次閱讀

    淺析大數據時代下的數據中心運維管理

    淺析大數據時代下的數據中心運維管理 張穎姣 安科瑞電氣股份有限公司?上海嘉定201801 摘要:本文將從數據中心運維管理的角度,聯系現實情況
    的頭像 發表于 02-22 14:40 ?419次閱讀
    淺析<b class='flag-5'>大數據</b>時代下的<b class='flag-5'>數據</b>中心運維<b class='flag-5'>管理</b>

    大數據技術是干嘛的 大數據核心技術有哪些

    的核心技術,包括數據采集、存儲與管理、處理與分析等方面。 一、大數據技術背景和概念 1.1 背景 隨著互聯網技術的迅猛發展,人們可以通過各種途徑產生、獲取和傳輸數據,使
    的頭像 發表于 01-31 11:07 ?3753次閱讀
    主站蜘蛛池模板: 日本妈妈xxxx| 婷婷亚洲五月色综合久久| 伊人色啪啪天天综合婷婷| 俄罗斯少女人体| 秋霞影院福利电影| 办公室的秘密2中文字幕| 女教师公车痴汉在线播放| 97人妻丰满熟妇AV无码| 久久精品99国产精品日本| 一本一本之道高清在线观看| 果冻传媒2021一二三在线观看| 亚洲AV无码一区二区三区牛牛 | 免费精品一区二区三区在线观看| 18禁黄无遮挡禁游戏在线下载| 麻豆E奶女教师国产精品| 97人妻在线公开视频在线观看| 免费鲁丝片一级在线观看| a视频免费在线| 三级黄色在线看| 国产99精品视频| 午夜插插插| 久久99热成人精品国产| 97超级碰久久久久香蕉人人| 欧美性最猛xxxx在线观看视频| 苍井空a 集在线观看网站| 色橹橹欧美在线观看视频高| 国产无遮挡无码视频在线观看不卡| 亚洲精品久久YY5099| 久久伊人免费| 边做边爱免费视频播放| 我半夜摸妺妺的奶C了她软件| 黄色三级视频网站| 97人人碰免费视频公开| 日日噜噜夜夜爽爽| 黄色毛片a| 糙汉顶弄抽插HHHH| 亚洲娇小性色xxxx| 男人扒开添女人下部口述| 国产激情文学| 最近日本免费观看MV免费| 日韩精品熟女一区二区三区中文|