亚洲一区二区免费在线观看,亚洲专区欧美专区,优优色倩网欧美影视在线看

概覽

Apache Druid 是一個高性能的實時分析型數據庫。

一個現代化的云原生，流原生，分析型數據庫

Druid 是為快速查詢和快速攝入數據的工作流而設計的。Druid 強在有強大的 UI，運行時可操作查詢，和高性能并發處理。Druid 可以被視為一個滿足多樣化用戶場景的數據倉庫的開源替代品。

輕松與現有的數據管道集成

Druid 可以從消息總線流式獲取數據（如 Kafka，Amazon Kinesis），或從數據湖批量加載文件（如 HDFS，Amazon S3 和其他同類數據源）。

比傳統方案快 100 倍的性能

Druid 對數據攝入和數據查詢的基準性能測試大大超過了傳統解決方案。

Druid 的架構融合了數據倉庫，時間序列數據庫和檢索系統最好的特性。

解鎖新的工作流

Druid 為 Clickstream，APM(應用性能管理系統)，supply chain(供應鏈)，網絡遙測，數字營銷和其他事件驅動形式的場景解鎖了新的查詢方式和工作流。Druid 專為實時和歷史數據的快速臨時查詢而構建。

部署在 AWS/GCP/Azure，混合云，k8s 和租用服務器上

Druid 可以部署在任何*NIX 環境中。無論是內部環境還是云環境。部署 Druid 是非常 easy 的：通過添加或刪減服務來擴容縮容。

使用場景

Apache Druid 適用于對實時數據提取，高性能查詢和高可用要求較高的場景。因此，Druid 通常被作為一個具有豐富 GUI 的分析系統，或者作為一個需要快速聚合的高并發 API 的后臺。Druid 更適合面向事件數據。

比較常見的使用場景：

點擊流分析（web 和 mobile 分析）

風控分析

網路遙測分析（網絡性能監控）

服務器指標存儲

供應鏈分析（制造業指標）

應用性能指標

商業智能/實時在線分析系統 OLAP

下面將詳細分析這些使用場景：

用戶活動和行為

Druid 經常用在點擊流，訪問流，和活動流數據上。具體場景包括：衡量用戶參與度，為產品發布追蹤 A/B 測試數據，并了解用戶使用方式。Druid 可以做到精確和近似計算用戶指標，例如不重復計數指標。這意味著，如日活用戶指標可以在一秒鐘計算出近似值(平均精度 98%)，以查看總體趨勢，或精確計算以展示給利益相關者。Druid 可以用來做“漏斗分析”，去測量有多少用戶做了某種操作，而沒有做另一個操作。這對產品追蹤用戶注冊十分有用。

網絡流

Druid 常常用來收集和分析網絡流數據。Druid 被用于管理以任意屬性切分組合的流數據。Druid 能夠提取大量網絡流記錄，并且能夠在查詢時快速對數十個屬性組合和排序，這有助于網絡流分析。這些屬性包括一些核心屬性，如 IP 和端口號，也包括一些額外添加的強化屬性，如地理位置，服務，應用，設備和 ASN。Druid 能夠處理非固定模式，這意味著你可以添加任何你想要的屬性。

數字營銷

Druid 常常用來存儲和查詢在線廣告數據。這些數據通常來自廣告服務商，它對衡量和理解廣告活動效果，點擊穿透率，轉換率（消耗率）等指標至關重要。

Druid 最初就是被設計成一個面向廣告數據的強大的面向用戶的分析型應用程序。在存儲廣告數據方面，Druid 已經有大量生產實踐，全世界有大量用戶在上千臺服務器上存儲了 PB 級數據。

應用性能管理

Druid 常常用于追蹤應用程序生成的可運營數據。和用戶活動使用場景類似，這些數據可以是關于用戶怎樣和應用程序交互的，它可以是應用程序自身上報的指標數據。Druid 可用于下鉆發現應用程序不同組件的性能如何，定位瓶頸，和發現問題。

不像許多傳統解決方案，Druid 具有更小存儲容量，更小復雜度，更大數據吞吐的特點。它可以快速分析數以千計屬性的應用事件，并計算復雜的加載，性能，利用率指標。比如，基于百分之 95 查詢延遲的 API 終端。我們可以以任何臨時屬性組織和切分數據，如以天為時間切分數據，如以用戶畫像統計，如按數據中心位置統計。

物聯網和設備指標

Driud 可以作為時間序列數據庫解決方案，來存儲處理服務器和設備的指標數據。收集機器生成的實時數據，執行快速臨時的分析，去估量性能，優化硬件資源，和定位問題。

和許多傳統時間序列數據庫不同，Druid 本質上是一個分析引擎。Druid 融合了時間序列數據庫，列式分析數據庫，和檢索系統的理念。它在單個系統中支持了基于時間分區，列式存儲，和搜索索引。這意味著基于時間的查詢，數字聚合，和檢索過濾查詢都會特別快。

你可以在你的指標中包括百萬唯一維度值，并隨意按任何維度組合 group 和 filter(Druid 中的 dimension 維度類似于時間序列數據庫中的 tag)。你可以基于 tag group 和 rank，并計算大量復雜的指標。而且你在 tag 上檢索和過濾會比傳統時間序列數據庫更快。

OLAP 和商業智能

Druid 經常用于商業智能場景。公司部署 Druid 去加速查詢和增強應用。和基于 Hadoop 的 SQL 引擎(如 Presto 或 Hive)不同，Druid 為高并發和亞秒級查詢而設計，通過 UI 強化交互式數據查詢。這使得 Druid 更適合做真實的可視化交互分析。

技術

Apache Druid 是一個開源的分布式數據存儲引擎。Druid 的核心設計融合了 OLAP/analytic databases，timeseries database，和 search systems 的理念，以創造一個適用廣泛用例的統一系統。Druid 將這三種系統的主要特性融合進 Druid 的 ingestion layer(數據攝入層)，storage format(存儲格式化層)，querying layer(查詢層)，和 core architecture(核心架構)中。

Druid 的主要特性包括：

列式存儲

Druid 單獨存儲并壓縮每一列數據。并且查詢時只查詢特定需要查詢的數據，支持快速 scan，ranking 和 groupBy。

原生檢索索引

Druid 為 string 值創建反向索引以達到數據的快速搜索和過濾。

流式和批量數據攝入

開箱即用的 Apache kafka，HDFS，AWS S3 連接器 connectors，流式處理器。

靈活的數據模式

Druid 優雅地適應不斷變化的數據模式和嵌套數據類型。

基于時間的優化分區

Druid 基于時間對數據進行智能分區。因此，Druid 基于時間的查詢將明顯快于傳統數據庫。

支持 SQL 語句

除了原生的基于 JSON 的查詢外，Druid 還支持基于 HTTP 和 JDBC 的 SQL。

水平擴展能力

百萬/秒的數據攝入速率，海量數據存儲，亞秒級查詢。

易于運維

可以通過添加或移除 Server 來擴容和縮容。Druid 支持自動重平衡，失效轉移。

數據攝入

Druid 同時支持流式和批量數據攝入。Druid 通常通過像 Kafka 這樣的消息總線（加載流式數據）或通過像 HDFS 這樣的分布式文件系統（加載批量數據）來連接原始數據源。

Druid 通過 Indexing 處理將原始數據以 segment 的方式存儲在數據節點，segment 是一種查詢優化的數據結構。

數據存儲

像大多數分析型數據庫一樣，Druid 采用列式存儲。根據不同列的數據類型（string，number 等），Druid 對其使用不同的壓縮和編碼方式。Druid 也會針對不同的列類型構建不同類型的索引。

類似于檢索系統，Druid 為 string 列創建反向索引，以達到更快速的搜索和過濾。類似于時間序列數據庫，Druid 基于時間對數據進行智能分區，以達到更快的基于時間的查詢。

不像大多數傳統系統，Druid 可以在數據攝入前對數據進行預聚合。這種預聚合操作被稱之為 rollup，這樣就可以顯著的節省存儲成本。

查詢

Druid 支持 JSON-over-HTTP 和 SQL 兩種查詢方式。除了標準的 SQL 操作外，Druid 還支持大量的唯一性操作，利用 Druid 提供的算法套件可以快速的進行計數，排名和分位數計算。

架構

Druid 是微服務架構，可以理解為一個拆解成多個服務的數據庫。Druid 的每一個核心服務(ingestion(攝入服務)，querying(查詢服務)，和 coordination(協調服務))都可以單獨部署或聯合部署在商業硬件上。

Druid 清晰的命名每一個服務，以確保運維人員可以根據使用情況和負載情況很好地調整相應服務的參數。例如，當負載需要時，運維人員可以給數據攝入服務更多的資源而減少數據查詢服務的資源。

Druid 可以獨立失敗而不影響其他服務的運行。

運維

Drui 被設計成一個健壯的系統，它需要 7*24 小時運行。Druid 擁有以下特性，以確保長期運行，并保證數據不丟失。

數據副本

Druid 根據配置的副本數創建多個數據副本，所以單機失效不會影響 Druid 的查詢。

獨立服務

Druid 清晰的命名每一個主服務，每一個服務都可以根據使用情況做相應的調整。服務可以獨立失敗而不影響其他服務的正常運行。例如，如果數據攝入服務失效了，將沒有新的數據被加載進系統，但是已經存在的數據依然可以被查詢。

自動數據備份

Druid 自動備份所有已經 indexed 的數據到一個文件系統，它可以是分布式文件系統，如 HDFS。你可以丟失所有 Druid 集群的數據，并快速從備份數據中重新加載。

滾動更新

通過滾動更新，你可以在不停機的情況下更新 Druid 集群，這樣對用戶就是無感知的。所有 Druid 版本都是向后兼容。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據庫

數據庫

+關注

關注
7

文章
3827

瀏覽量
64527
管理系統

管理系統

+關注

關注
1

文章
2539

瀏覽量
35973
GUI

GUI

+關注

關注
3

文章
662

瀏覽量
39773
APM

APM

+關注

關注
1

文章
71

瀏覽量
13019

原文標題：Apache Durid從入門到安裝詳解

文章出處：【微信號：OSC開源社區，微信公眾號：OSC開源社區】歡迎添加關注！文章轉載請注明出處。

關系型數據庫和非關系型區別

關系型數據庫和非關系型數據庫在多個方面存在顯著差異，主機推薦小編為您整理發布關系型數據庫和非關系

發表于 01-10 09:58 ?68次閱讀

云數據庫是哪種數據庫類型？

云數據庫是一種部署在虛擬計算環境中的數據庫，它融合了云計算的彈性和可擴展性，為用戶提供高效、靈活的數據庫服務。云數據庫主要分為兩大類：關系

發表于 01-07 10:22 ?93次閱讀

數據庫數據恢復—通過拼接數據庫碎片恢復SQLserver數據庫

一個運行在存儲上的SQLServer數據庫，有1000多個文件，大小幾十TB。數據庫每10天生成一個

發表于 10-31 13:21 ?270次閱讀

一文講清什么是分布式云化數據庫！

分布式云化數據庫是一種先進的數據管理系統，它將傳統的數據庫技術與分布式計算、云計算和大數據處理技術相融合。這種

發表于 10-14 10:06 ?237次閱讀

云數據庫價格貴嗎？云數據庫租用價格表

不同的云服務提供商會提供多樣化的云數據庫產品，以滿足不同規模和類型的企業需求。這些產品通常包括基礎型、標準型、高性能型等多個檔次，每個檔次的

發表于 10-10 11:12 ?235次閱讀

軟件系統數據庫的分庫分表設計

的分布式集群，實現分庫分表功能，解決數據庫中海量數據存儲和查詢性能的問題。MyCat 還是一個數據庫的集群中間件，主要實現 RDBMS

發表于 08-22 11:39 ?340次閱讀

恒訊科技分析：云數據庫rds和redis區別是什么如何選擇？

結構化數據，使用SQL作為查詢語言，支持ACID事務和多種復雜查詢操作。而Redis是一個基于內存的非關系型數據庫，采用鍵值對模型存儲

發表于 08-19 15:31 ?426次閱讀

恒訊科技分析：跨境電商網站有哪些數據庫系統是推薦使用的？

對于跨境電商網站，數據庫系統的選擇非常關鍵，以下是一些推薦使用的數據庫系統： 1、MySQL：MySQL是一個流行的開源關系

發表于 08-12 15:01 ?398次閱讀

恒訊科技分析：sql數據庫怎么用？

。 2、安裝數據庫軟件：在您的服務器或本地計算機上安裝所選的數據庫軟件。 3、配置數據庫服務器：根據需要配置數據庫服務器設置，包括內存分配、存儲位置、網絡配置等。 4、創建

發表于 07-15 14:40 ?382次閱讀

鴻蒙開發接口數據管理：【@ohos.data.rdb (關系型數據庫)】

關系型數據庫（Relational Database，RDB）是一種基于關系模型來管理數據的數據庫。關系

發表于 06-10 18:35 ?1350次閱讀

HarmonyOS開發案例：【搭建關系型數據庫】（4）

本節將介紹如何調用關系型數據庫接口在本地搭建數據庫，并讀寫相應的用戶數據。

發表于 05-11 10:27 ?934次閱讀

數據庫數據恢復—raid5陣列上層Sql Server數據庫數據恢復案例

數據庫數據恢復環境： 5塊硬盤組建一組RAID5陣列，劃分LUN供windows系統服務器使用。windows系統服務器內運行了Sql Server數據庫，存儲空間在操作系統層面劃分

發表于 05-08 11:43 ?531次閱讀

時序數據庫是什么？時序數據庫的特點

時序數據庫是一種在處理時間序列數據方面具有高效和專門化能力的數據庫。它主要用于存儲和處理時間序列數據，比如傳感器

發表于 04-26 16:02 ?676次閱讀

HarmonyOS開發案例：【關系型數據庫】

使用關系型數據庫的相關接口實現了對賬單的增、刪、改、查操作。

發表于 04-22 14:58 ?674次閱讀

深耕文檔型數據庫12載，SequoiaDB再開源

、易用性四個方向的技術特性，宣布了2024年面向技術社區的開源計劃。此次發布活動不僅是對SequoiaDB性能的全面介紹，更是對十余年來始終堅守以JSON文檔型數據庫內核為技術底座的發

發表于 01-16 13:06 ?303次閱讀