隨著5G、AI、大數據等新一代信息技術在千行百業中深度應用,非結構化數據呈來源多樣化、維度豐富化、數據量爆炸式增長的特征,數據體量從早期的TB級、PB級過渡到現今的EB級。據IDC預測,2025年全球新增數據可達175ZB,其中80%為非結構化數據,大量數據以多模態形式呈現。
非結構化數據多模計算的應用場景
非結構化數據多模計算涵蓋海洋觀測、自動駕駛、石油勘探、天文觀測、生命科學、AIGC、六大應用場景。
海洋觀測預報系統。海洋多模態數據具有超巨系統屬性,根據當前關于海洋數據量的研究,2030年全球海洋數據總量將達到275PB。NETCDF(Network Common Data Form)是海洋多模態數據最常用的存儲格式,海洋遙感圖像和時空序列數值是其數據主體。海洋物聯網的快速機動組網觀測系統是海洋科學研究的基礎,由信息感知層、信息傳輸層、信息處理層及信息應用層組成。目前海洋觀測手段正由固定平臺觀測向固定與移動平臺協同觀測方向發展;海洋信息傳輸系統主要以岸基移動通信、海上無線通信、衛星通信和水聲通信等網絡體系實現對全球覆蓋;信息處理層是指開發快速機動組網觀測系統軟件,基于海洋觀測裝備及傳輸鏈路,研究多平臺、多要素海洋環境及目標實時數據采集技術;信息應用層是指生成數據分析產品,提供信息分發與共享服務,并與國家海洋環境安全保障平臺對接。
自動駕駛感知系統。自動駕駛驅動的核心是高質量的標注數據,并基于海量的數據來優化訓推模型。據統計每輛測試車每天產生約25TB數據,一個中等規模的車隊每年產生幾十甚至上百PB的數據。自駕車輛終端采集的數據類型包括LiDAR數據(bin格式)、RGB圖像(jpeg格式)、標簽數據(txt格式)與CALIB校正數據(txt格式)。自駕的全生命周期過程包括數據采集、數據存儲、數據預處理、數據標注、模型訓練、仿真測試與部署發布,上述環節中所使用的工具和平臺,被稱作“工具鏈”。以數據處理為例,單數據類型就多種多樣,包括攝像頭數據、毫米波雷達數據、激光雷達點云數據,需要先對這些數據進行去噪,也就是所謂的“數據清洗”。數據處理完成后,下一步便開始數據標注。標注的類型大致可分為2D、3D目標物標注、聯合標注、車道線標注和語義分割等,還要涉及到具體標注規范和標注質檢流程,整個流程異常繁瑣。而這復雜流程的每一個環節,都需要與之對應的工具和存儲的支撐。
勘探開發一體化系統。石油勘探開發包含地震、鉆測井、油氣水井等與生產開發相關的多種數據類型。目前陸上高精度三維地震數據體規??蛇_幾十TB,海上原始地震數據體可以達到上百TB。地震數據是地震勘探中體量最大的數據類型,SEG(Society of Exploration Geophysicists)是地震多模態數據最常用的存儲格式,野外采集地震數據為64位SEG-D格式,室內地震處理在數據交換基本都采用32位SEG-Y格式。鉆測井中核磁共振與成像測井數據的體量最大,對測井數據存儲速度、可靠性、安全性與精確性的要求較高。油氣井等開發數據以現場大量的實時傳感數據為基礎的,處理時限要求高,各類傳感終端產生實時、連續的事件流,數據流處理系統必須快速對其進行響應并及時輸出結果。
非結構化數據多模計算融合存儲解決方案
不同應用場景的非結構化多模計算涉及計算、感知、調查、文獻與結果等多種數據類型。計算數據包括科研平臺、功能實驗室等產生的數據;感知數據涉及大數據物聯網前端傳感器、視頻與雷達等實時采集的數據;調查數據指統一的調查報告平臺,如科研數據、任務報告、數據報告等匯總的過程數據;文獻數據是通過網絡、爬蟲、期刊、會議、輿情等途徑收集到的相關新聞、論文、報告等數據;結果數據涵蓋云平臺、容器平臺、大數據平臺、GPU渲染節點和AI計算節點在離線渲染和計算產生的結果數據?;诜墙Y構多模計算的應用場景,浪潮信息發布新一代分布式存儲產品與端到端一體化的解決方案,幫助客戶存好、用好、管好核心數據資產。
新一代分布式存儲產品
AS13000G7/AS15000G7
AS13000G7面向多模數據融合應用場景,提供多源數據零拷貝技術,實現文件、對象、大數據、視頻四種協議融合互通,承載非結構化多模計算的實際應用,減少數據拷貝過程中的性能開銷。有效解決非結構化數據多模計算應用場景下,各協議數據無法互相訪問、高效融合共享的問題,消除存儲信息孤島。
AS15000G7則是面向高性能應用場景,是一種專門為集群環境設計的高性能、可擴展的、具有全局統一命名空間的并行文件系統??梢栽谌杭械亩鄠€節點間實現對共享文件系統中文件的快速存取操作,并提供穩定的故障恢復和容錯機制,存儲軟件功能包括生命周期管理、GDS、文件雙活、數據壓縮與隔離、遠程異步復制等。
端到端一體化存儲解決方案
一套集群配置高速SSD與大容量HDD等多個存儲池,依據業務需求靈活調整,更好地對接現有和未來可能部署的云平臺、容器、大數據、物聯網(IOT)等各種應用。同時,整個集群也可以將多種存儲池進行統一管理,部署成一個存儲集群,這樣既能更好地滿足業務需求,也能保護投資,避免資源閑置?;跇藴蕝f議,分布式存儲集群無縫對接云平臺應用,并為計算資源提供塊、文件、對象、大數據、視頻等多樣化的數據服務,靈活承載私有云、公有云和混合云平臺。存儲容量和性能實現彈性擴展,安全隔離租戶底層的數據資源,數據可靠性為99.9999%,實現存儲資源的統一管理和調度。
應用“存算分離”大數據集群架構,數據存放在專業的存儲節點,便于客戶分級分類管理。分布式存儲通過原生HDFS協議對接大數據平臺,提高數據訪問效率,簡化運維管理。存儲集群基于CSI接口對接容器平臺,承載非結構化多模計算場景中的敏態業務,為Kubernetes集群中的應用自動地提供持久化存儲服務,同時也便于其它容器平臺通過CSI接口獲取存儲信息并調配底層存儲資源。人工智能平臺作為AI軟硬件技術的融合載體,將為AI產業的發展提供大規模數據處理和高性能智能計算支撐,具有高度并行的特點。應用高性能并行存儲文件系統對接AI訓推一體化平臺,滿足模型訓練推理過程中超高帶寬、極低時延與極致IOPS需求。
面對增長迅速、多維、海量等特性的非結構化多模數據,傳統集中式文件存儲方式在數據使用率、查詢分析效率、安全維護和管理上存在不足。浪潮信息通過軟件化的模塊定義方式,提供非結構化數據多模計算場景下端到端一體化的融合存儲的解決方案,實現同一基礎架構上不同應用之間的數據業務應用融合,提升集群“存算協同”的能力,降低了用戶投資、維護和管理的成本。
-
存儲
+關注
關注
13文章
4329瀏覽量
85944 -
浪潮
+關注
關注
1文章
463瀏覽量
23894
原文標題:分布式融合存儲解決方案驅動非結構化數據多模計算
文章出處:【微信號:inspurstorage,微信公眾號:浪潮存儲】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論