數據可視化就是將抽象的“數據”以可見的形式表現出來,幫助人理解數據。大數據可視化相對傳統的數據可視化,處理的數據對象有了本質不同,在已有的小規模或適度規模的結構化數據基礎上,大數據可視化需要有效處理大規模、多類型、快速更新類型的數據。這給數據可視化研究與應用帶來一系列新的挑戰。
數據可視化這一概念自1987年正式提出,經過30余年的發展,逐漸形成3個分支:科學計算可視化(scientific visualization)、信息可視化(information visualization)和可視分析(visual analytics)。近些年來,這3個子領域出現了逐漸融合的趨勢。本文統稱為“數據可視化”。
在傳統數據可視化基礎上,論文嘗試給出大數據可視化的內涵:大數據可視化是指有效處理大規模、多類型和快速變化數據的圖形化交互式探索與顯示技術。
其中,有效是指在合理時間和空間開銷范圍內;大規模、多類型和快速變化是所處理數據的主要特點;圖形化交互式探索是指支持通過圖形化的手段交互式分析數據;顯示技術是指對數據的直觀展示。
大數據可視化技術
首先從方法層面介紹基本滿足常用數據可視化需求的通用技術,根據可視化目標分類介紹,然后根據大數據的特點,重點介紹相關的大規模數據可視化、時序數據可視化、面向可視化的數據采樣方法和數據可視化生成技術。
常用的數據可視化技術
數據可視化技術在應用過程中,多數非技術驅動,而是目標驅動。如圖顯示了目前業界廣泛使用的根據目標分類的數據可視化方法,數據可視化目標抽象為對比、分布、組成以及關系。
按目標分類的常用數據可視化方法
1、對比。比較不同元素之間或不同時刻之間的值。
2、分布。查看數據分布特征,是數據可視化最為常用的場景之一。
3、組成。查看數據靜態或動態組成。
4、關系。查看變量之間的相關性,這常常用于結合統計學相關性分析方法,通過視覺結合使用者專業知識與場景需求判斷多個因素之間的影響關系。
大規模數據可視化一般認為是處理數據規模達到TB或PB級別的數據。經過數十年的發展,大規模數據可視化經過了大量研究,重點介紹其中的并行可視化和原位(in situ)可視化。
(1)并行可視化
并行可視化通常包括3種并行處理模式,分別是任務并行、流水線并行、數據并行。
任務并行將可視化過程分為獨立的子任務,同時運行的子任務之間不存在數據依賴。
流水線并行采用流式讀取數據片段,將可視化過程分為多個階段,計算機并行執行各個階段加速處理過程。
數據并行是一種“單程序多數據”方式,將數據劃分為多個子集,然后以子集為粒度并行執行程序處理不同的數據子集。
(2)原位可視化
數值模擬過程中生成可視化,用于緩解大規模數值模擬輸出瓶頸。根據輸出不同,原位可視化分為圖像、分布、壓縮與特征。
輸出為圖像的原位可視化,在數值模擬過程中,將數據映射為可視化,并保存為圖像。
輸出為分布數據的原位可視化,根據使用者定義的統計指標,在數值模擬過程中計算統計指標并保存,后續進行統計數據可視化;
輸出為壓縮數據的原位可視化采用壓縮算法降低數值模擬數據輸出規模,將壓縮數據作為后續可視化處理的輸入;
輸出為特征的原位可視化采用特征提取方法,在數值模擬過程中提取特征并保存,將特征數據作為后續可視化處理的輸入。
(3)時序數據可視化
時序數據可視化是幫助人類通過數據的視角觀察過去,預測未來,例如建立預測模型,進行預測性分析和用戶行為分析。
面積圖可顯示某時間段內量化數值的變化和發展,最常用來顯示趨勢。氣泡圖可以將其中一條軸的變量設置為時間,或者把數據變量隨時間的變化制成動畫來顯示。蠟燭圖通常用作交易工具。
甘特圖通常用作項目管理的組織工具,熱圖通過色彩變化來顯示數據,直方圖適合用來顯示在連續間隔或特定時間段內的數據分布。
折線圖用于在連續間隔或時間跨度上顯示定量數值,最常用來顯示趨勢和關系。南丁格爾玫瑰圖繪制于極坐標系之上,適用于周期性時序數據。OHLC圖通常用作交易工具。
螺旋圖沿阿基米德螺旋線繪制基于時間的數據。堆疊式面積圖的原理與簡單面積圖相同,但它能同時顯示多個數據系列。量化波形圖可顯示不同類別的數據隨著時間的變化。
另外,具有空間位置信息的時序數據,常常將上述可視化方法地圖結合,例如軌跡圖。
常用的數據可視化技術和方法有哪些。中琛魔方大數據平臺表示在大數據時代背景下,為了讓大眾更方便地享受數據結果,數據可視化技術應運而生。傳統的可視化技術基于計算機圖形的繪制,在傳統的可視化技術的基礎上,隨著計算機技術的發展以及數據圖象處理技術和其他主流智能技術的發展,現代可視化技術取得了一定的發展成果。
責任編輯:gt
-
可視化
+關注
關注
1文章
1200瀏覽量
21007 -
大數據
+關注
關注
64文章
8908瀏覽量
137656
發布評論請先 登錄
相關推薦
評論