隨著機器學習、隱私計算、高性能計算、深度學習訓練、差分隱私的快速發(fā)展,如今的人工智能仍然面臨兩大挑戰(zhàn)。一是在大多數(shù)行業(yè)中,數(shù)據(jù)以孤島的形式存在;另一個是加強數(shù)據(jù)隱私和安全。為這些挑戰(zhàn)提出了一個可能的解決方案:安全聯(lián)邦學習。其中包括橫向聯(lián)邦學習、縱向聯(lián)邦學習和聯(lián)邦遷移學習。
聯(lián)邦學習(Federated Learning)是一種分布式機器學習技術,其核心思想是通過在多個擁有本地數(shù)據(jù)的數(shù)據(jù)源之間進行分布式模型訓練,在不需要交換本地個體或樣本數(shù)據(jù)的前提下,僅通過交換模型參數(shù)或中間結果的方式,構建基于虛擬融合數(shù)據(jù)下的全局模型,從而實現(xiàn)數(shù)據(jù)隱私保護和數(shù)據(jù)共享計算的平衡,即“數(shù)據(jù)可用不可見”、“數(shù)據(jù)不動模型動”的應用新范式。許多客戶端(例如移動設備或整個組織)在中央服務器(例如服務提供商)的編排下協(xié)同訓練一個模型,同時保持訓練數(shù)據(jù)的分散。聯(lián)邦學習體現(xiàn)了集中數(shù)據(jù)收集和最小化的原則,可以減輕許多由傳統(tǒng)的、集中的機器學習和數(shù)據(jù)科學方法造成的系統(tǒng)性隱私風險和成本。
聯(lián)邦學習涉及在大規(guī)模分布式網(wǎng)絡中訓練機器學習模型。雖然聯(lián)合平均(fedavg)是在此設置中訓練非凸模型的主要優(yōu)化方法,但在跨統(tǒng)計異構設備(即每個設備以非相同的時尚。眾所周知的 fedprox 框架來解決統(tǒng)計異質性,它包含了 fedavg 作為一個特例。通過一種新穎的設備相異性假設為 fedprox 提供收斂保證,能夠表征網(wǎng)絡中的異質性,最后,對一套聯(lián)合數(shù)據(jù)集進行了詳細的實證評估,證明了廣義 fedprox 框架相對于 fedavg 在異構網(wǎng)絡中學習的魯棒性和穩(wěn)定性有所提高。
聯(lián)邦學習科研論文成果現(xiàn)狀
一、論文發(fā)表量復合年增長率為 40%
基于 AMiner 系統(tǒng),通過關鍵詞組在標題和摘要中檢索 2016 年至 2021 年論文數(shù)據(jù)。結果顯示,研究時段內聯(lián)邦學習相關論文共計 4576 篇, 自 2016 年被提出以來,研究論文數(shù)量逐年增多, 到 2021 年的復合年增長率為 40.78%,相關論文趨勢如下圖所示。
聯(lián)邦學習研究論文趨勢(2016-2021 年)
二、論文發(fā)布量以中美兩國為引領
根據(jù)論文作者所在機構所屬國家進行排序分析,發(fā)現(xiàn)近年來聯(lián)邦學習論文發(fā)布量 TOP 10 國家依次是中國、美國、英國、俄羅斯、德國、印度、澳大利亞、加拿大、日本和法國。相關論文量較突出的國家是中國(1245 篇)和美國(1175 篇)詳細信息如下圖所示。
聯(lián)邦學習論文發(fā)表量 TOP 10 國家(2016-2021 年)
三、研究熱點涵蓋應用、系統(tǒng)和模型設計、安全隱私三個領域
1、總體研究熱點
總體來看,基于 AMiner 系統(tǒng)的論文熱詞分析,發(fā)現(xiàn) 2016-2021 年聯(lián)邦學習領域的研究熱點 TOP 10 按熱度遞減依次包括:Internet of Things(物聯(lián)網(wǎng))、blockchain(區(qū)塊鏈)、edge computing ( 邊緣計算 )、optimization (優(yōu)化)、deep network(深度網(wǎng)絡)、aggregation(聚合)、differential privacy(差分隱私)、healthcare(醫(yī)療保健)、Multiparty Computation(多方計算)、reinforcement learning(強化學習)等,如圖所示。可見,在研究時段內,聯(lián)邦學習的主要研究熱點是關于應用及相關算法模型。
2016-2021 年聯(lián)邦學習領域研究熱點詞云圖
2、主題熱點趨勢
通過 TF-IDF 算法對所研究時段內每一年的聯(lián)邦學習主題相關論文數(shù)量進行計算,獲取論文數(shù)量 TOP 30 的熱點詞,然后聚合成聯(lián)邦學習的應用 (application)、系統(tǒng)和模型設計(system and model design ) 和安全隱私( secure and privacy)三個主題領域的研究熱點集。這三個細分主題的研究趨勢呈現(xiàn)出如下特征。
在應用研究領域,聯(lián)邦學習的研究熱點按照總熱度由高到低依次包括物聯(lián)網(wǎng)(Internet of things)、邊緣計算( edge computing )、 醫(yī)療保健 (healthcare)、車輛交互(vehicle)、無線通信( wireless communication )、 數(shù)據(jù)庫 (database)、以及推薦 (recommendation),詳細信息如圖所示。
聯(lián)邦學習在應用方面的研究熱點趨勢(2016-2021 年)
關于聯(lián)邦學習在系統(tǒng)和模型設計方面的研究熱點趨勢情況如圖所示。由圖可見,截止目前,在系統(tǒng)和模型設計方面研究熱點依照熱度遞減分別是優(yōu)化(optimization)、聚合(aggregation)、魯棒性( robustness ) 、 通信效率 ( communication efficiency )、異構 (heterogeneity)、公平性(fairness)、資源效率 (resource efficiency)和激勵機制(incentive mechanism)。優(yōu)化主題曾經(jīng)在 2016 和 2017 年研究熱度最高,經(jīng)過 2018-2020 年的熱度相對弱化后,在 2021 年再度成為最熱門的研究主題。
2017 年,資源效率和公平性相關主題研究開始嶄露頭角
2018 年,通信效率相關研究占據(jù)熱度榜第一
2019 年,熱度最高的是與安全聚合相關研究, 同時,對聯(lián)邦學習(數(shù)據(jù)和系統(tǒng))異構的研究大幅 提升
2020 年,與異構相關研究上升為最熱門,和激勵機制相關的研究數(shù)量大幅提升
2021 年,與優(yōu)化和聚合相關主題研究上升幅度顯著。
從熱度持續(xù)性看,聚合、優(yōu)化、魯棒性、激勵機制和公平性的相關研究在研究時段內一直保持著不同程度的熱度上揚
聯(lián)邦學習系統(tǒng)和模型設計方面的研究熱點趨勢(2016-2021 年)
在安全隱私方面,聯(lián)邦學習研究主題依據(jù)總熱度遞減依次包括區(qū)塊鏈(blockchain)、差分隱私 (differential privacy)、 安全多方計算 (multiparty computation)、 惡意攻擊 (malicious attack)、 隱私泄露 (privacy leakage)、 同態(tài)加密 (homomorphic encryption)、網(wǎng)絡安全(cyber security)以及 容錯(fault tolerance),具體熱度趨勢情況如圖所示。在研究時段內,區(qū)塊鏈、差分隱私、多方計算、惡意攻擊、隱私泄露和同態(tài)加密的研究熱度總體持續(xù)逐年上漲。
2016 年,研究最熱的是對聯(lián)邦學習中惡意攻擊的研究
2017 年,研究最熱的是差分隱私
2018 年,研究最熱的是安全多方計算所涉及數(shù)據(jù)安全和隱私保護技術,與區(qū)塊鏈結合的相關研究雖然于 2018 年出現(xiàn)但快速成為 2019 年至 2021 年最熱的研究主題
聯(lián)邦學習安全隱私方面的研究熱點趨勢(2016-2021 年)
四、高被引論文分析
根據(jù)聯(lián)邦學習領域論文被引用量進行排序,選取了排名前 3%的論文作為具有重大學術影響的高被引論文進行相關的作者及其所隸屬機構與國家等特征分析。數(shù)據(jù)顯示,本年度聯(lián)邦學習領域高被引論文的最低被引次數(shù)是 120 次,是去年高被引論文最低被引次數(shù)的 3 倍,反映出該領域論文的整體學術影響力大幅提升。
1、六成以上高被引論文來自中美兩國
根據(jù)論文第一作者所在機構的所屬國家進行統(tǒng)計分析,發(fā)現(xiàn)聯(lián)邦學習的近年來高被引論文發(fā)表主要是來自于美國和中國。其中,美國的高被引論文占 39.2%,雖然較上期下降了 1 個百分點,但仍為全球最多;中國的高被引論文占 26.4%,雖仍居于全球第二位,但數(shù)量比上期增加了近 10 個百分 點;德國、英國、澳大利亞與新加坡也擁有一定數(shù)量的高被引論文;其余國家所發(fā)表高被引論文的占比均低于 4%,詳細信息如圖所示。
聯(lián)邦學習高被論文國家分布(2016-2021 年)
2、美國的論文被引用量全球顯著領先
聯(lián)邦學習相關論文總引用量 TOP 10 國家是美國、中國、澳大利亞、德國、新加坡、英國、印度、日本、以色列和波蘭,具體信息如圖所示。其中,美國的論文總被引用量明顯高于其他國家,其較上期增長 1.6 倍,仍占據(jù)榜首;中國的論文被引用量較上期增長近 3 倍,保持第二位置。印度、以色列和波蘭是本期新進入前十的國家,上期居于前十的沙特阿拉伯、韓國和瑞士本期未能進入前十。
聯(lián)邦學習論文引用量 TOP 10 國家(2016-2021 年)
從領先國家來看,美國聯(lián)邦學習被引用量最高的論文是谷歌公司研究科學家 H. Brendan Mcmahan 作為一作發(fā)表的論文 Communication-efficient learning of deep networks from decentralized data,該論文于 2016 年發(fā)表于 ArXiv e-prints (2016): arXiv- 1602,并在2017年收錄于AISTATS (International Conference on Artificial Intelligence and Statistics),目前其被引用 4534 次。中國聯(lián)邦學習總體論文引用量居于第二,其中被引用最高的論文是香港科技大學計算機科學與工程學系教授楊強為第一作者、與微眾銀行 AI 部門、北京航空航天大學計算機學院的研究人員聯(lián)合發(fā)表的 Federated Machine Learning: Concept and Applications,該文被引用量 1936 次。
多開源聯(lián)邦學習系統(tǒng)框架詳細介紹
一、OpenMined——PySyft
PySyft 是開源社區(qū) OpenMined 推出的一個用于安全和私有深度學習的 Python 庫。它使用聯(lián)邦學習、差分隱私和加密計算來解耦私人和敏感數(shù)據(jù),可以在主要的深度學習框架中使用,例如 TensorFlow 和 PyTorch。PySyft 代表在深度學習程序中啟用可靠的隱私模型的首批嘗試之一。 PySyft 的核心組件是稱為 SyftTensor 的抽象。
SyftTensors 旨在表示數(shù)據(jù)的狀態(tài)或轉換,并且可以鏈接在一起。鏈結構始終在其頭 部具有 PyTorch 張量,并且使用 child 屬性向下訪問由 SyftTensor 體現(xiàn)的變換或狀態(tài),而使用 parent 屬性向上訪問由 SyftTensor 體現(xiàn)的變換或狀態(tài)。
二、微眾銀行——FATE
微眾銀行 AI 部門研發(fā)了FATE(Federated AI Technology Enabler)聯(lián)邦學習開源項目,是首個開源的聯(lián)邦學習工業(yè)級框架。目前 FATE 開源社區(qū)已匯聚了 700 多家企業(yè)、300 余所高校等科研機構的開發(fā)者,是國內最大的聯(lián)邦學習開源社區(qū)。
FATE 項目使用多方安全計算 (MPC) 以及同態(tài)加密 (HE) 技術構建底層安全計算協(xié)議,以此支持不同種類的機器學習的安全計算,包括邏輯回歸、樹算法、深度學習(人工神經(jīng)網(wǎng)絡)和遷移學習等。FATE 目前支持三種類型聯(lián)邦學習算法:橫向聯(lián)邦學習、縱向聯(lián)邦學習以及遷移學習。
FATE 整體架構如圖所示。FATE 主倉庫包含 FederatedML 核心聯(lián)邦算法庫和多方聯(lián)邦建模 Pipeline 調度模塊 FATE-Flow,F(xiàn)ATE 擁抱大數(shù)據(jù)生態(tài)圈,底層引擎支持使用微眾銀行自主研發(fā)的 EGGROLL 或者 Spark 進行高性能的計算。圍繞 FATE 聯(lián)邦學習生態(tài),F(xiàn)ATE 還提供了完整的聯(lián)邦學習生態(tài)鏈,如聯(lián)邦可視化模塊 FATE-Board、聯(lián)邦在線推理模塊 FATE-Serving、聯(lián)邦多云管理 FATECloud 等。
微眾銀行 FATE 系統(tǒng)架構
FederatedML 是 FATE 的聯(lián)邦學習算法庫模塊,提供了 20+種聯(lián)邦學習算法,支持縱向聯(lián)邦學習、橫向聯(lián)邦學習、聯(lián)邦遷移學習三種聯(lián)邦建模場景,覆蓋了工業(yè)建模的數(shù)據(jù)處理、特征變換、訓練、預測、評估的全建模流程。另外,封裝了眾多的多方安全計算協(xié)議以提供給上層算法的調度和支持聯(lián)邦學習開發(fā)者的聯(lián)邦算法開發(fā)。
FATE-Flow 為 FATE 提供了端到端聯(lián)邦建模 Pipeline 調度和管理,主要包括 DAG 定義聯(lián)邦建模 pipeline、聯(lián)邦任務生命周期管理、聯(lián)邦任務協(xié)同調度、聯(lián)邦任務追蹤、聯(lián)邦模型管理等功能,實現(xiàn)了聯(lián)邦建模到生產(chǎn)服務一體化。 FATE-Board 聯(lián)邦學習建模的可視化工具,為終端用戶提供可視化和度量模型訓練的全過程。
三、谷歌——TensorFlow Federated(TFF)
TensorFlow Federated project (TFF) 由谷歌公司開發(fā)和維護,是一個為聯(lián)邦機器學習和其他計算方法在去中心化數(shù)據(jù)集上進行實驗的開源框架。TFF 讓開發(fā)者能在自己的模型和數(shù)據(jù)上模擬實驗現(xiàn)有的聯(lián)邦學習算法,以及其他新穎的算法。TFF 提供的建造塊也能夠應用于去中心化數(shù)據(jù)集上,來實現(xiàn)非學習化的計算,例如聚合分析。
TFF 的接口有兩層構成:聯(lián)邦層(FL)應用程序接口(API)和聯(lián)邦核心(FC)API。TFF 使得開發(fā)者能夠聲明和表達聯(lián)邦計算,從而能夠將其部署于各類運行環(huán)境。 TFF 中包含的是一個單機的實驗運行過程模擬器。該聯(lián)邦學習的框架如圖所示。
不同于分布式訓練理念,TFF 框架設計理念是以數(shù)據(jù)為主,而不是代碼分離上。在編寫模型、訓練代碼的時候,將 clients 和 server 看作一個整體,同一個文件里不需要分割開 Server 端(S 端)和 Clients 端(C 端)的代碼,C 端和 S 端的區(qū)分是在代碼邏輯層面的。也就是說,用戶在編寫 TFF 代碼時,不需要指明某段代碼是應該運行在 C 端還是 S 端)僅需要指出每個數(shù)據(jù)是儲存在C 端/S 端、是全局唯一的還是有多份拷貝的即可。類似 TF 的 non-eager 模式,當用戶編寫完模型代碼和訓練代碼后,TFF 會自動地將代碼分別放置到 clients 和 server 設備上。用戶只要關注模型架構、C&S 端交互的數(shù)據(jù)格式、聚合多 clients 模型的方式即可。
四、字節(jié)跳動——Fedlearner
字節(jié)跳動聯(lián)邦學習平臺 Fedlearner 基于字節(jié)跳動在推薦和廣告領域積累的機器學習建模技術和個性化推薦算法,可以支持多類聯(lián)邦學習模式,已經(jīng)在電商、金融、教育等行業(yè)多個落地場景實際應用。
Fedlearner 聯(lián)邦學習平臺整個系統(tǒng)包括控制臺、訓練器、數(shù)據(jù)處理、數(shù)據(jù)存儲等模塊,各模塊對稱部署在參與聯(lián)邦的雙方的集群上,透過代理互相通信,實現(xiàn)訓練。
五、百度——PaddleFL
PaddleFL 是一個基于百度飛槳(PaddlePaddle)的開源聯(lián)邦學習框架 。PaddleFL 提供很多聯(lián)邦學習策略及其在計算機視覺、自然語言處理、推薦算法等領域的應用,例如,橫向聯(lián)邦學習(聯(lián)邦平均、差分隱私、安全聚合)和縱向聯(lián)邦學習(帶 privc 的邏輯回歸,帶 ABY3 的神經(jīng)網(wǎng)絡)。研究人員可以用 PaddleFL 復制和比較不同的聯(lián)邦學習算法。
此外,PaddleFL 還提供傳統(tǒng)機器學習訓練策略的應用,例如多任務學習、聯(lián)邦學習環(huán)境下的遷移學習、主動學習。依靠 PaddlePaddle 的大規(guī)模分布式訓練和 Kubernetes 對訓練任務的彈性調度能力,PaddleFL 可以基于全棧開源軟件輕松地部署。
PaddleFL 中主要提供兩種解決方案:Data Parallel 以及 Federated Learning with MPC (PFM)。通過 Data Parallel,各數(shù)據(jù)方可以基于經(jīng)典的橫向聯(lián)邦學習策略(如 FedAvg,DPSGD等)完成模型訓練。此外,PFM 是基于多方安全計算(MPC)實現(xiàn)的聯(lián)邦學習方案。作為 PaddleFL 的一個重要組成部分,PFM 可以很好地支持聯(lián)邦學習,包括橫向、縱向及聯(lián)邦遷移學習等多個場景。
六、京東——九數(shù)聯(lián)邦學習 9NFL
京東自研的九數(shù)聯(lián)邦學習平臺(9NFL)于2020 年初正式上線。9NFL 平臺基于京東商業(yè)提升事業(yè)部 9N 機器學習平臺進行開發(fā),在 9N 平臺離線訓練、離線預估、線上推斷(inference)、模型的發(fā)版等功能的基礎上,增加了多任務跨域調度、跨域高性能網(wǎng)絡、大規(guī)模樣本匹配、大規(guī)模跨域聯(lián)合訓練、模型分層級加密等功能。整個平臺可以支持百億級/百 T 級超大規(guī)模的樣本匹配、聯(lián)合訓練,并且針對跨域與跨公網(wǎng)的復雜環(huán)境,對可用性與容災設計了一系列的機制與策略,保障整個系統(tǒng)的高吞吐、高可用、高性能。
七、FedML.AI——FedML
FedML 是一個以研究為導向的聯(lián)邦學習圖書館,支持分布式計算、移動/物聯(lián)網(wǎng)設備上訓練和獨立模擬,可促進新的聯(lián)合學習算法的開發(fā)和公平的性能比較。支持分布式計算、移動/物聯(lián)網(wǎng)設備上訓練和獨立模擬。
FedML 還通過靈活且通用的 API 設計和參考基準實現(xiàn)和促進了各種算法研究。針對非 I.I.D 設置的精選且全面的基準數(shù)據(jù)集旨在進行公平比較。 FedML 可以為聯(lián)合學習研究社區(qū)提供開發(fā)和評估算法的有效且可重復的手段。
八、臺灣人工智能實驗室——Harmonia
臺灣人工智能實驗室(AI Labs)開發(fā)了一個開源項目 Harmonia,旨在開發(fā)系統(tǒng)/基礎設施和圖書館,以簡化聯(lián)合學習的研究和生產(chǎn)用途。Harmonia 使用工程師熟悉的環(huán)境和語言,比如熱門的開源工具 Kubernetes、Git Large File Storage 和 GitOps 等。Harmonia 利用 Git 進行訪問控制、模型版本控制和服務器和聯(lián)合培訓 (FL)運行參與者之間的同步。FL 訓練策略、全局模型和本地模型/漸變保存在 Git 存儲庫中。這些 Git respoitroies 的更新會觸發(fā) FL 系統(tǒng)狀態(tài)轉換。這將自動化 FL 培訓過程。
FL 參與者被激活為由操作員和應用容器組成的 K8S 吊艙。操作容器負責維護 FL 系統(tǒng)狀態(tài),并通過 gRPC 與應用程序容器通信。本地訓練和聚合函數(shù)封裝在應用程序容器中。此設計可在 Kubernetes 群集環(huán)境中輕松部署,并快速插件現(xiàn)有機器學習(ML)工作流。
非開源聯(lián)邦學習系統(tǒng)框架詳細介紹
一、騰訊——Angel PowerFL
Angel Power FL(原名 AngelFL)安全聯(lián)合計算是基于騰訊自研的多數(shù)據(jù)源聯(lián)合計算技術,提供安全、易用、穩(wěn)定、高性能的聯(lián)邦機器學習、聯(lián)合數(shù)據(jù)分析解決方案,助力數(shù)據(jù)融合應用。它構建在 Angel 機器學習平臺上,利用 Angel--PS 支持萬億級模型訓練的能力,將很多在 Worker 上的計算提升到 PS(參數(shù)服務器)端;Angel PowerFL 為聯(lián)邦學習算法提供了計算、加密、存儲、狀態(tài)同步等基本操作接口,通過流程調度模塊協(xié)調參與方任務執(zhí)行狀態(tài),而通信模塊完成了任務訓練過程中所有數(shù)據(jù)的傳輸。
采用去中心的架構設計,全自動化流程,算法支持 LR、XGBoost、PCA、用戶自定義神經(jīng)網(wǎng)絡模型(如 MLP、CNN、RNN、 Wide&Deep,DeepFM, DSSM 等)。Angel PowerFL 聯(lián)邦學習已經(jīng)在騰訊金融云、騰訊廣告聯(lián)合建模等業(yè)務中開始落地。目前主要應用產(chǎn)品是騰訊云安全隱私計算。
二、京東科技——Fedlearn
京東數(shù)字科技集團(簡稱:京東數(shù)科,現(xiàn)名: 京東科技)于 2020 年 10 月推出自主研發(fā)的聯(lián)邦學習平臺 Fedlearn。Fedlearn 平臺具有“六位一 體”核心能力:多自研聯(lián)邦學習算法、多方同態(tài)加密、輕量級分布式架構、區(qū)塊鏈與聯(lián)邦學習融合、數(shù)據(jù)安全容器、一站式操作平臺。
京東科技 Fedlearn 平臺具有三大特點:
1、數(shù)據(jù)和模型隱私方面
不同參與方之間沒有直接交換本地數(shù)據(jù)和模型參數(shù),而是交換更新參數(shù)所需的中間數(shù)值。為了避免從這些中間數(shù)值中恢復數(shù)據(jù)信息,采用增加擾動對這些數(shù)值進行保護,確保了數(shù)據(jù)和模型的隱私安全
2、通訊方面
引入中心化數(shù)據(jù)交換的概念,使得數(shù)據(jù)的交換獨立于參與方
3、計算架構
采用異步計算框架,提高模型訓練的速度
三、富數(shù)科技——FMPC
富數(shù)多方安全計算平臺(FMPC)是上海富數(shù)科技旗下產(chǎn)品,目前未開源,主要通過體驗或者服務購買方式使用 。
FMPC 架構具有以下特點:
1、聯(lián)邦學習
原始數(shù)據(jù)不出門,參與各方本地建模;沒有敏感數(shù)據(jù)流通,只交互中間計算結果;整個模型被保護,參與各方只有自己模型參數(shù);私有化部署;開放 API 快速開發(fā);支持主流機器學習算法,如 LR, DT, RF, Xgboost 等;建模速度快 3 倍;密文訓練精度誤差<1%。?
2、多方安全計算
落地應用計算量 1.1 萬+次 /天;支持多方數(shù)據(jù)安全求交;支持一次多項式;支持多方歸因統(tǒng)計分析;支持多方多維數(shù)據(jù)鉆取分析;私有化部署。
3、匿蹤查詢
支持 100 億+條記錄;秒級響應時間;查詢授權存證;甲方查詢信息不泄露;加密隧道避免中間留存;私有化部署。
隱私計算(聯(lián)邦學習)液冷GPU服務器
藍海大腦隱私計算(聯(lián)邦學習)大數(shù)據(jù)液冷GPU服務器基于數(shù)據(jù)隱私保護的安全建模過程提供豐富的可視化呈現(xiàn),為終端用戶可視化和度量模型訓練的全過程,支持模型訓練過程全流程的跟蹤、統(tǒng)計和監(jiān)控等,幫助模型開發(fā)人員快速搭建聯(lián)邦學習任務,可根據(jù)客戶需求深度定制開發(fā)。是一款具備高性能、高可靠、高靈活及高擴展特性的深度學習操作系統(tǒng),由高性能計算加速中間件、深度學習訓練平臺及數(shù)據(jù)推理平臺三個子系統(tǒng)構成,為用戶提供數(shù)據(jù)處理、模型訓練、推理服務應用等完整的 AI 解決方案。
一、用戶現(xiàn)狀
1、數(shù)據(jù)產(chǎn)品相互分離
同一業(yè)務可能隨著業(yè)務發(fā)展和需求變化,同時部署不同的數(shù)據(jù)庫和數(shù)據(jù)平臺產(chǎn)品;此外,為了保證企業(yè)的核心競爭力,企業(yè)不斷部署新的數(shù)據(jù)庫和數(shù)據(jù)平臺產(chǎn)品,不斷建設、合并和遷移業(yè)務。然而,豎井建設模式使得數(shù)據(jù)產(chǎn)品相互分離,導致數(shù)據(jù)孤島問題,最終降低了企業(yè)的數(shù)據(jù)共享能力。
2、系統(tǒng)復雜性劇增
傳統(tǒng)的解決方案需要經(jīng)過復雜耗時的ETL,將數(shù)據(jù)反復存儲在同一個存儲介質中,然后重新開發(fā)業(yè)務獲得數(shù)據(jù)計算結果。數(shù)據(jù)分散存儲在不同的數(shù)據(jù)產(chǎn)品中,數(shù)據(jù)結構存在差異,給跨產(chǎn)品數(shù)據(jù)間的關聯(lián)計算帶來了一定的難度。
3、開發(fā)運維困難
系統(tǒng)集成一段時間后,業(yè)務部門會推出新的業(yè)務數(shù)據(jù)庫,ETL流程需要改造。底層數(shù)據(jù)庫頻繁的業(yè)務架構調整和數(shù)據(jù)變換也會導致集成系統(tǒng)的失敗。面對集成系統(tǒng)的開發(fā)和運維難題,企業(yè)自身的技術開發(fā)能力顯然難以應對,最終集成系統(tǒng)的響應速度無法滿足業(yè)務的時效性需求。
二、方案優(yōu)勢
1、統(tǒng)一平臺架構
連接企業(yè)內部各類數(shù)據(jù)源,滿足各種多樣復雜的業(yè)務需求,為企業(yè)提供平臺數(shù)據(jù)計算能力
2、極致性能
自主研發(fā)的統(tǒng)一分布式計算引擎可以根據(jù)不同的查詢對象,通過各種優(yōu)化技術自動優(yōu)化查詢,并實現(xiàn)毫秒級延遲
3、多數(shù)據(jù)源支持
支持傳統(tǒng)關系型數(shù)據(jù)庫、Nosql數(shù)據(jù)庫、MPP數(shù)據(jù)庫和大數(shù)據(jù)平臺產(chǎn)品
4、統(tǒng)一的SQL查詢
自主研發(fā)統(tǒng)一的SQL編譯器,通過一個標準的SQL就可以實現(xiàn)各個數(shù)據(jù)庫之間的關聯(lián)查詢
5、數(shù)據(jù)獨立性
實現(xiàn)跨數(shù)據(jù)庫、跨平臺的數(shù)據(jù)集成的同時,滿足底層數(shù)據(jù)庫的自治需求
6、安全合規(guī)
提供統(tǒng)一的權限體系、用戶行為審計與溯源,提供數(shù)據(jù)安全與合規(guī)保障
三、客戶收益
1、建設統(tǒng)一計算平臺,簡化IT系統(tǒng)架構,降低IT成本
2、提升企業(yè)數(shù)據(jù)共享能力,快速響應業(yè)務需求
3、提升企業(yè)信息技術架構的敏捷程度,助力企業(yè)數(shù)據(jù)數(shù)字轉型
審核編輯 黃昊宇
-
AI
+關注
關注
87文章
31195瀏覽量
269561 -
分布式
+關注
關注
1文章
911瀏覽量
74566 -
機器學習
+關注
關注
66文章
8428瀏覽量
132821 -
網(wǎng)絡訓練
+關注
關注
0文章
3瀏覽量
1509
發(fā)布評論請先 登錄
相關推薦
評論