色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Flink在2020年蟬聯(lián)Apache社區(qū)最活躍的項(xiàng)目

算法與數(shù)據(jù)結(jié)構(gòu) ? 來源:算法與數(shù)據(jù)結(jié)構(gòu) ? 作者:王峰(莫問)、梅 ? 2021-01-04 13:52 ? 次閱讀

剩喜漫天飛玉蝶,不嫌幽谷阻黃鶯。2020 年是不尋常的一年,F(xiàn)link 也在這一年迎來了新紀(jì)元。 12 月13 – 15 號,2020 Flink Forward Asia(FFA)在春雪的召喚下順利拉開帷幕。Flink Forward Asia 是由 Apache 官方授權(quán),Apache Flink Community China 支持舉辦的會議。經(jīng)過兩年的不斷升級和完善,F(xiàn)link Forward Asia 已成為國內(nèi)最大的 Apache 頂級項(xiàng)目會議,是 Flink 開發(fā)者和使用者的年度盛會!

今年由于疫情的原因,F(xiàn)link Forward Asia 首次采用線上線下雙線同步會議的形式,吸引了更多的參會者觀看討論,三天實(shí)際總參與人數(shù)(UV)超過 9.2 萬,單日最高觀看人數(shù)(UV)超過 4 萬。

e15c8912-48d2-11eb-8b86-12bb97331649.png

FFA 大會從社區(qū)發(fā)展,業(yè)內(nèi)影響力和 Flink 引擎生態(tài)這三方面總結(jié)了 Flink 過去一年內(nèi)的成績。 社區(qū)方面,如上圖所示,根據(jù) Apache 基金會財(cái)年報告公布的各項(xiàng)核心指標(biāo)顯示,F(xiàn)link 在 2020 年蟬聯(lián) Apache 社區(qū)最活躍的項(xiàng)目。不僅如此,F(xiàn)link Github 的星數(shù)(代表項(xiàng)目受歡迎程度)和 Flink 的社區(qū)代碼貢獻(xiàn)者(contributor)數(shù)量在過去數(shù)年中一直保持年均 30%+ 的增長。

尤其值得一提的是 Flink 中文社區(qū)的繁榮發(fā)展:Flink 是當(dāng)前 Apache 頂級項(xiàng)目中唯一一個開通了中文郵件列表(user-zh@flink.apache.org)的項(xiàng)目,且中文郵件列表的活躍度已超過英文郵件列表;Flink 的官方公眾號訂閱數(shù)超過 3 萬人,全年推送超過 200 篇和 Flink 技術(shù),生態(tài)以及實(shí)踐相關(guān)的最新資訊。此外,F(xiàn)link 官方中文學(xué)習(xí)網(wǎng)站也已經(jīng)正式開通:https://flink-learning.org.cn/,收納了和 Flink 相關(guān)的學(xué)習(xí)資料,場景案例以及活動信息,希望能對 Flink 感興趣的同學(xué)有所助益。

e192a2fe-48d2-11eb-8b86-12bb97331649.png

在業(yè)界影響力方面,經(jīng)過幾年的發(fā)展,F(xiàn)link 已經(jīng)成為事實(shí)上的國內(nèi)外實(shí)時計(jì)算行業(yè)標(biāo)準(zhǔn),大部分主流科技公司均已采用 Flink 作為實(shí)時計(jì)算的技術(shù)方案。本屆 Flink Forward Asia 邀請到 40 多家一線國內(nèi)外公司參與分享 Flink 的技術(shù)探索和實(shí)踐經(jīng)驗(yàn),上圖列出了其中部分公司的 Logo。從圖中的 Logo 來看,F(xiàn)link 技術(shù)已經(jīng)應(yīng)用到各行各業(yè),深入到我們的日常點(diǎn)滴生活中,從知識分享到在線教育;從金融服務(wù)到理財(cái)投資;從長短視頻到在線直播;從實(shí)時推薦搜索到電商服務(wù)等等。

從 Flink 引擎生態(tài)來看,2020 年,F(xiàn)link 在流計(jì)算引擎內(nèi)核,流批一體,擁抱 AI,云原生這四個主打方向上都取得了不錯的成績。特別對于流批一體,今年發(fā)布的三個大版本(Flink-1.10 & 1.11 & 1.12)對流批一體進(jìn)一步作了升級和完善,并首次在阿里巴巴雙十一最核心的天貓營銷活動分析大屏場景中落地 [1]。經(jīng)歷過雙十一洗禮的流批一體將成為在業(yè)界大規(guī)模推廣的起點(diǎn),開創(chuàng)流批一體新紀(jì)元! 本文將對 Keynote 議題作一些簡單的歸納總結(jié),拋磚引玉,感興趣的小伙伴們可以在官網(wǎng)找到相關(guān)主題視頻觀看直播回放。

主會場議題

在主議題之前有兩個環(huán)節(jié)值得提一提。一是阿里巴巴集團(tuán)副總裁,阿里云智能計(jì)算平臺負(fù)責(zé)人,人工智能計(jì)算框架 Caffe 之父賈揚(yáng)清老師作為開場嘉賓,分享了他對開源與云的思考。他指出,開源讓云更標(biāo)準(zhǔn)化,而大數(shù)據(jù)和人工智能一體化則是必然趨勢。顯而易見地,作為頂級開源項(xiàng)目和實(shí)時計(jì)算標(biāo)準(zhǔn)的 Flink 在這個過程中承擔(dān)極其重要的角色。

同時他也對 Flink 如何在未來做到計(jì)算普惠化和數(shù)據(jù)智能化提出更多期待,讓 Flink 的小松果在各行各業(yè)的數(shù)據(jù)和智能融合中生根發(fā)芽!二是由阿里云天池平臺和 Intel 聯(lián)合舉辦的第二屆 Apache Flink 極客挑戰(zhàn)賽頒獎典禮。此次挑戰(zhàn)賽聚焦防疫主題,在 Apache Flink 平臺上支持深度學(xué)習(xí)應(yīng)用,吸引了來自 14 個國家和地區(qū),705 所高校,1327 家企業(yè)的 3840 位選手,由揚(yáng)清,李文和湘雯頒獎。

言歸正傳,下面聊聊幾個主議題。

Flink as a Unified Engine

–– Now and Next

主議題由 Apache Flink 中文社區(qū)發(fā)起人,阿里云智能實(shí)時計(jì)算和開放平臺負(fù)責(zé)人莫問老師開啟,主要介紹 Flink 社區(qū)在 2020 年取得的成果以及未來的發(fā)展方向,主要包括:流計(jì)算引擎內(nèi)核,流批一體,F(xiàn)link + AI 融合,云原生這四個方向。值得一題的是,他還特別分享了阿里巴巴作為 Flink 最大的使用者和推動者,在流批一體雙十一核心業(yè)務(wù)場景落地的過程中的經(jīng)驗(yàn)和心得,相信對很多有類似需求的小伙伴們會有啟示。

技術(shù)創(chuàng)新是開源項(xiàng)目持續(xù)發(fā)展的核心,所以首先第一個部分是 Flink 社區(qū)在流計(jì)算引擎內(nèi)核方面的創(chuàng)新分享:

1)Unaligned Checkpoint 我們知道 Flink 的一個最核心的部分是通過分布式全局輕量快照算法 [2, vldb17] 做 checkpoint 來保證強(qiáng)一致性 exactly once 語義。這個算法通過 task 之間 barrier 的傳遞使得每一個 task 只需要對自己的狀態(tài)進(jìn)行快照;當(dāng) barrier 最終達(dá)到 sink 的時候,我們就會得到一個完整的全局快照(checkpoint)。但在數(shù)據(jù)反壓的情況下,barrier 無法流到 sink,會造成 checkpoint 始終無法完成。

Unaligned Checkpoint 解決了反壓狀態(tài)下,checkpoint 無法完成的問題。在 unaligned checkpoint 的模式下,F(xiàn)link 可以對每個 task 的 channel state 和 output buffer 也進(jìn)行快照,這樣 barrier 可以快速傳遞到 sink,使得 checkpoint 不受反壓影響。Unaligned checkpoint 和 aligned checkpoint(現(xiàn)有的 checkpoint 模式)可以通過 alignment timeout 自動智能的切換,下圖給出了示意圖。

e2dce96c-48d2-11eb-8b86-12bb97331649.png

2)Approximate Failover –– 更加靈活的容錯模式 流計(jì)算內(nèi)核引擎部分的另一個提升是 Approximate 單點(diǎn) Failover。在強(qiáng)一致性 exactly once 語義下,單個節(jié)點(diǎn)的失敗會導(dǎo)致全部節(jié)點(diǎn)的重新啟動和回滾。但對某些場景,特別是 AI 訓(xùn)練的場景,其實(shí)對語義一致性的要求并沒有那么高,反而對于可用性要求更高,所以社區(qū)引入了 Approximate Failover 的模式:單個節(jié)點(diǎn)的失敗只會引起該失敗節(jié)點(diǎn)的重啟和恢復(fù),而整個數(shù)據(jù)流程是沒有中斷的。Approximate Failover 在 AI 訓(xùn)練和推薦場景下是強(qiáng)需求,快手和字節(jié)跳動的分享中都有提到。

3)Nexmark –– Streaming Benchmark 目前的實(shí)時流計(jì)算并沒有行業(yè)內(nèi)公認(rèn)的 benchmark,為了填補(bǔ)這項(xiàng)空白,基于 NEXMark[3],F(xiàn)link 推出了第一版包含 16 個 SQL Query 的 benchmark 工具 Nexmark。Nexmark 一大特點(diǎn)是方便易用,沒有外部系統(tǒng)依賴, 同時支持標(biāo)準(zhǔn)的 ANSI SQL。Nexmark 目前業(yè)已開源:https://github.com/nexmark/nexmark,可以用來比對不同流計(jì)算引擎之間的差異。

第二個重要的部分是流批一體,開頭提到 2020 年是流批一體的新紀(jì)元,為什么這么說呢,莫問老師從流批一體架構(gòu)演進(jìn),F(xiàn)link 批處理性能,以及業(yè)界流批一體數(shù)據(jù)生態(tài)這三個方面給出了答案。

1)流批一體架構(gòu)演進(jìn) Flink-1.10 & 1.11 兩個大版本實(shí)現(xiàn)了 SQL & Table 層的流批一體化和解決生產(chǎn)可用性問題;剛剛發(fā)版的 Flink-1.12 解決了 DataStream 層的流批一體化;從 1.13 版本開始,F(xiàn)link 將逐步淘汰 DataSet 這套 API。在全新的流批一體架構(gòu)中,F(xiàn)link 完成了統(tǒng)一的流批表達(dá),統(tǒng)一的流批執(zhí)行,以及統(tǒng)一可插拔的 runtime 支持。分會場中的《基于 Flink DataStream API 的流批一體處理》有對這個部分更為詳細(xì)的介紹。

e319eccc-48d2-11eb-8b86-12bb97331649.png

2)Batch 性能 大家比較關(guān)心的批的性能:經(jīng)過三個版本的迭代,以 TPC-DS 為基準(zhǔn),F(xiàn)link-1.12 比 Flink-1.9(去年的版本)提速 3 倍!數(shù)據(jù)量 10TB,20臺 64Core 機(jī)器的配置下,TPC-DS 運(yùn)行時間收斂到萬秒以內(nèi)。這意味著 Flink Batch 的性能已經(jīng)不亞于任何一個業(yè)界主流的 Batch 引擎了。

3)流批一體數(shù)據(jù)生態(tài) 莫問老師指出,流批一體不僅僅只是一個技術(shù)問題,它也對業(yè)界數(shù)據(jù)生態(tài)的演化也起到了深遠(yuǎn)的作用,比較典型的場景包括數(shù)據(jù)同步集成(數(shù)據(jù)庫里的數(shù)據(jù)同步到數(shù)倉中)和基于 Flink 流批一體的數(shù)倉架構(gòu)/數(shù)據(jù)湖架構(gòu)。傳統(tǒng)的數(shù)據(jù)同步集成采用全量增量定時合并的模式,而 Flink 流批一體混合 connector 可以實(shí)現(xiàn)全量增量一體化數(shù)據(jù)集成(讀取數(shù)據(jù)庫全量數(shù)據(jù)后,可以自動切換到增量模式,通過 CDC 讀取 binlog 進(jìn)行增量同步),全量和增量之間無縫自動切換,如下圖所示。

e3685d12-48d2-11eb-8b86-12bb97331649.png

傳統(tǒng)的數(shù)倉架構(gòu)分別維護(hù)一套實(shí)時數(shù)倉和離線數(shù)倉鏈路,這樣會造成開發(fā)流程冗余(實(shí)時離線兩套開發(fā)流程),數(shù)據(jù)鏈路冗余(兩遍對數(shù)據(jù)的清洗補(bǔ)齊過濾),數(shù)據(jù)口徑不一致(實(shí)時和離線計(jì)算結(jié)果不一致)等問題。而 Flink 的流批一體數(shù)倉架構(gòu)將實(shí)時離線鏈路合二為一,可以完全的解決上述這三個問題。不僅于此,F(xiàn)link 的流批一體架構(gòu)和數(shù)據(jù)湖所要解決的問題(流批一體存儲問題)也完美契合。現(xiàn)在比較主流的數(shù)據(jù)湖解決方案 Iceberg,Hudi 和 Flink 都有集成。

其中,F(xiàn)link + Iceberg 已有完整的集成方案;而 Flink + Hudi 的整合也在積極對接中。 第三個大的方向是與 AI 的融合。莫問老師從語言層,算法層和大數(shù)據(jù)與 AI 一體化流程管理這三個方面總結(jié)了 2020 年 Flink 在 AI 融合方面的進(jìn)展。

從語言層來講,F(xiàn)link 對 AI 的主流開發(fā)語言 Python 的支持 PyFlink 逐步走向成熟:Flink 的 DataStream API 和 Table API 都已 Python 化,用戶可以用純 Python 語言開發(fā) Flink 程序;Flink SQL 中支持 Python UDF/UDTF;PyFlink 集成了常用的 Python 類庫如 Pandas,在 PyFlink 中可以直接調(diào)用 Pandas UDF/UDAF。

從算法層面來看,去年開源的:Alink https://github.com/alibaba/alink(基于 Flink 的流批一體的傳統(tǒng)機(jī)器學(xué)習(xí)算法庫)新增了數(shù)十個開源算法,提供基于參數(shù)服務(wù)器的大規(guī)模分布式訓(xùn)練,訓(xùn)練過程與預(yù)測服務(wù)的銜接更加順暢。

e398cc68-48d2-11eb-8b86-12bb97331649.png

大數(shù)據(jù)與 AI 一體化流程管理也是一個很值得深入探討的問題,其背后的本質(zhì)問題是在離線學(xué)習(xí)實(shí)時化的大背景下,如何設(shè)計(jì)離線在線機(jī)器學(xué)習(xí)一體化的流程管理架構(gòu),以及該架構(gòu)如何與大數(shù)據(jù)工作流程相結(jié)合,實(shí)現(xiàn)大數(shù)據(jù)與機(jī)器學(xué)習(xí)全鏈路一體化的問題。這套完整的解決方案 Flink AI Extended 不僅支持深度學(xué)習(xí)引擎和 Flink 計(jì)算引擎的集成(TensorFlow / PyTorch on Flink),它的工作流(Flink AI Flow)也應(yīng)用了上述的一體化設(shè)計(jì)思想。

目前 Flink AI Extended 也已經(jīng)開源:https://github.com/alibaba/flink-ai-extended。此外,在分會場議題中有對 Flink AI Extended 更詳細(xì)的討論和全流程 demo《基于 Flink 的在線機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu)探討》,感興趣的同學(xué)可以找來看看并試用一下。 此外還有一個重要的方向是Flink 與云原生生態(tài) Kubernetes 的深度融合。Kubernetes 目前廣泛應(yīng)用在各種在線業(yè)務(wù)上,其生態(tài)本身發(fā)展也很快,可以給 Flink 在生產(chǎn)中提供更好的運(yùn)維能力。

從 Flink-1.10 版本開始,F(xiàn)link 經(jīng)過三個版本的迭代,到 Flink-1.12,F(xiàn)link 已經(jīng)可以原生地運(yùn)行在 Kubernetes 之上,對接 K8S 的 HA 方案,并不再依賴 ZooKeeper,達(dá)到生產(chǎn)可用級別。同時,F(xiàn)link 的 JobManager 可以和 K8S Master 直接通信,實(shí)現(xiàn)動態(tài)擴(kuò)縮容,并支持對 GPU 的資源調(diào)度。

e4032bbc-48d2-11eb-8b86-12bb97331649.png

接下來,莫問老師分享了 Flink 在阿里巴巴(Flink 最大的使用者和推動者)的前世,今生和未來。2016 年,F(xiàn)link 在雙十一搜索推薦場景中首次亮相,并用 Flink 實(shí)現(xiàn)搜索推薦和在線學(xué)習(xí)全鏈路實(shí)時化。2017 年,F(xiàn)link 成為阿里巴巴集團(tuán)內(nèi)實(shí)時計(jì)算的標(biāo)準(zhǔn)解決方案。2018 年,F(xiàn)link 正式上云,使用 Flink 的實(shí)時數(shù)據(jù)解決方案更好的為中小企業(yè)服務(wù)。2019 年,阿里巴巴收購了 Flink 的初創(chuàng)公司 Ververica,并將 Blink 回饋給社區(qū),向國際化邁進(jìn)一步。

到 2020 年,F(xiàn)link 已經(jīng)成為事實(shí)上的全球?qū)崟r計(jì)算標(biāo)準(zhǔn)。目前各大云廠商(阿里云,AWS)和大數(shù)據(jù)廠商(Cloudera)等均已將 Flink 內(nèi)置作為標(biāo)準(zhǔn)的云產(chǎn)品。到今年雙十一,F(xiàn)link 已包攬阿里內(nèi)部所有集團(tuán)(包括螞蟻,釘釘,菜鳥等)的全鏈路實(shí)時化解決方案,規(guī)模達(dá)到百萬級 CPU Core。并且在資源沒有增長的情況下,提高了一倍業(yè)務(wù)能力。今年雙十一的實(shí)時數(shù)據(jù)處理峰值更是達(dá)到40 億條記錄/秒的新高。

e45193ce-48d2-11eb-8b86-12bb97331649.png

莫問老師強(qiáng)調(diào),“全數(shù)據(jù)鏈路實(shí)時化”并不是終點(diǎn),阿里巴巴的目標(biāo)是“實(shí)時離線一體化”。2020 年,F(xiàn)link 迎來了實(shí)時離線流批一體的新紀(jì)元 –– 首次在雙十一最核心場景天貓營銷活動分析大屏場景中落地,并帶來了巨大的收益:實(shí)時和離線邏輯業(yè)務(wù)的一體化使得數(shù)據(jù)結(jié)果天然保持一致;同時使得業(yè)務(wù)開發(fā)效率提升了 4-10 倍;流批任務(wù)的錯峰調(diào)度使得資源成本節(jié)省了 1 倍,如上圖所示。在行業(yè)實(shí)踐分會場中的《流批一體技術(shù)在天貓雙 11 的應(yīng)用》對此有更詳盡的介紹,感興趣的同學(xué)可以參考一下。在行業(yè)內(nèi),字節(jié)跳動,美團(tuán),快手,知乎,小米,網(wǎng)易等都在探索 Flink 流批一體的落地。

Flink 助力美團(tuán)數(shù)倉增量生產(chǎn)

第二場議題由美團(tuán)實(shí)時計(jì)算負(fù)責(zé)人鞠大升老師帶來,主要分享了 Flink 在美團(tuán)內(nèi)部的應(yīng)用。鞠大升老師首先分享了美團(tuán)數(shù)倉的整體架構(gòu)。如下圖所示。美團(tuán)數(shù)據(jù)架構(gòu)包括數(shù)據(jù)集成系統(tǒng)、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)消費(fèi)和數(shù)據(jù)應(yīng)用四部分。Flink 主要應(yīng)用在 Kafka2Hive、實(shí)時數(shù)據(jù)處理、Datalink 等(圖中紅圈的部分),而他本次分享也主要集中在這幾個部分。Flink 在美團(tuán)的主要應(yīng)用場景包括實(shí)時數(shù)倉,實(shí)時分析;推薦搜索;風(fēng)控監(jiān)控;安全審計(jì)。這幾個應(yīng)用場景其實(shí)也是 Flink 現(xiàn)在的幾個最主流的應(yīng)用場景。在美團(tuán)的應(yīng)用場景中,F(xiàn)link 每天的峰值數(shù)據(jù)達(dá)到 1.8 億條記錄/s。

e496f662-48d2-11eb-8b86-12bb97331649.png

美團(tuán)的分享有兩個比較有趣的部分,一是提出了“增量生產(chǎn)”這個概念。這其實(shí)和莫問老師提到的全量增量一體化數(shù)據(jù)集成異曲同工。但在這個概念里,增加了數(shù)據(jù)時效性,數(shù)據(jù)質(zhì)量和生產(chǎn)成本之間的權(quán)衡考量,也即如何在一個數(shù)倉業(yè)務(wù)中在滿足時效性的情況下能更有效的控制成本和提升數(shù)據(jù)質(zhì)量。

二是美團(tuán)基于 Flink 架構(gòu)解決了分布式異構(gòu)數(shù)據(jù)源同步(Datalink)的問題。他們基于 Flink 的同步系統(tǒng)可以將同步任務(wù)通過 Task Manager 分散到集群中,使得整體架構(gòu)有很好的擴(kuò)展性;另一方面,離線和實(shí)時的同步任務(wù)可以都統(tǒng)一到 Flink 框架中,所以離線和實(shí)時所有同步的組件都可以共用。 目前,美團(tuán)在數(shù)據(jù)處理這一層還沒有實(shí)現(xiàn)完全的流批統(tǒng)一,所以鞠大升老師表示,未來的目標(biāo)希望在數(shù)據(jù)處理以及數(shù)據(jù)存儲本身都能達(dá)到流批統(tǒng)一。

Apache Flink在快手的過去、現(xiàn)在和未來

第三場議題由快手大數(shù)據(jù)架構(gòu)團(tuán)隊(duì)負(fù)責(zé)人趙健博老師帶來,主要分享了快手實(shí)時計(jì)算選型 Flink 的原因和 Flink 在快手內(nèi)部應(yīng)用的場景,以及快手在這些應(yīng)用場景內(nèi)的相關(guān)技術(shù)改進(jìn)。快手選型 Flink 的原因其實(shí)回答了為什么 Flink 能成為業(yè)界實(shí)時計(jì)算的標(biāo)準(zhǔn):1)亞秒級的處理延遲,這對快手內(nèi)部的實(shí)時應(yīng)用是個硬性強(qiáng)需求;2)豐富的窗口計(jì)算模式,自帶的標(biāo)準(zhǔn)化狀態(tài)存儲以及 Exactly Once 的強(qiáng)一致性保證能夠極大的簡化業(yè)務(wù)開發(fā)和調(diào)試的復(fù)雜度;3)流批一體架構(gòu)的演進(jìn)進(jìn)一步簡化數(shù)據(jù)和業(yè)務(wù)架構(gòu)的復(fù)雜性。快手表示非常看好 Flink 流批一體在數(shù)據(jù)全場景落地。

e4c6f254-48d2-11eb-8b86-12bb97331649.png

快手使用 Flink 從 2017 年開始,從 0 到 1 今年已是第四個年頭,發(fā)展過程如上圖所示。快手使用 Flink 主要場景包括實(shí)時 ETL 數(shù)據(jù)集成,實(shí)時報表,實(shí)時監(jiān)控,實(shí)時特征處理(AI),目前每天的峰值可以達(dá)到 6 億條記錄 /s。針對上述每一個場景快手都分享了很詳細(xì)的實(shí)例,特別是特征處理(Feature Processing/Engineering),在很多 AI 場景中還是很有代表性的。 快手還分享了自研的狀態(tài)存儲(SlimBase)在其內(nèi)部的應(yīng)用。

SlimBase 主要分為三層,State Interface 層,KV Cache 層和 File System(Distributed)層;其中 KV Cache 是讀操作能加速的關(guān)鍵。當(dāng) SlimBase KV Cache 層都被命中時,SlimBase 相對于 RocksDB 有 3-9 倍的讀寫效率提升;而 Cache 層不能都被命中的情況下(需要訪問文件系統(tǒng)),讀性能有一些下降。除了 SlimBase,快手對 Flink 的穩(wěn)定性(包括硬件故障,依賴服務(wù)異常,任務(wù)過載)和負(fù)載均衡方面都提出一些改進(jìn)的解決方案。

分會場議題《快手基于 Apache Flink 的持續(xù)優(yōu)化實(shí)踐》對此有更詳細(xì)的介紹。 對于未來的規(guī)劃,趙健博老師老師表示會推動 Flink 的流批一體在快手內(nèi)部落地,并結(jié)合 Flink 的流批一體推動 AI 數(shù)據(jù)流實(shí)時化以提升訓(xùn)練模型的迭代速度。隨著越來越多業(yè)務(wù)使用 Flink,快手對 Flink 的穩(wěn)定性也提出更多的要求(比如快速 Failover 的能力),所以快手在這方面也會有更多的投入。

Stream is the New File

主議題的最后一場是由戴爾科技集團(tuán)軟件開發(fā)總監(jiān)滕昱老師帶來的流式存儲議題:Pravega。這個議題比較有趣的是討論了流式存儲的抽象 Stream Abstraction。傳統(tǒng)的文件系統(tǒng)對于流式存儲來說并不是一個好的抽象,原因 1)文件的大小有限制,但是流式數(shù)據(jù)是持續(xù)注入的;

2)在持續(xù)的數(shù)據(jù)注入中對存儲的并發(fā)度也需要動態(tài)調(diào)整,這就涉及到多個文件的維護(hù)和操作;3)有序的流式數(shù)據(jù)的定位尋址問題在文件系統(tǒng)接口中也無法很好的被支持;4)現(xiàn)在業(yè)界慣用的聯(lián)合使用消息隊(duì)列(Kafka)+ 文件系統(tǒng)的混合抽象也仍然沒有減輕應(yīng)用程序開發(fā)和維護(hù)的難度。

e51a2adc-48d2-11eb-8b86-12bb97331649.png

根據(jù)上述需求,Dell 科技集團(tuán)設(shè)計(jì)了基于 Stream Abstraction 的流式存儲系統(tǒng) Pravega。Pravega 將流存儲動態(tài) scaling,動態(tài) scaling 以后如何保證流數(shù)據(jù)邏輯上有序,流數(shù)據(jù)定位和尋址以及 checkpointing 等等一系列問題都封裝在 Stream abstraction 之下。在這種抽象之下,流式存儲可以和流式計(jì)算引擎無縫銜接,也給流式計(jì)算屏蔽了很多流存儲端的復(fù)雜性,從而使整個端到端僅一次性處理(exactly once)的 pipeline 被極大的簡化(如上圖所示)。

目前 Pravega 已經(jīng)是一個 CNCF 開源項(xiàng)目,在 Pravega 最新一期官方 blog(https://blog.pravega.io/)中,Pravega 發(fā)布了基于 OpenMessaging Benchmark 對比 Kafka 和 Pulsar 的各項(xiàng)性能指標(biāo)。此外,Pravega 在分會場中有一場關(guān)于 Pravega Flink connector 的分享,《Pravega Flink connector 的過去,現(xiàn)在和未來》,感興趣的同學(xué)可以看一下。

除了主會場阿里巴巴,美團(tuán),快手,Dell 科技集團(tuán)的分享,分會場由行業(yè)實(shí)踐,核心技術(shù),開源生態(tài),金融行業(yè),機(jī)器學(xué)習(xí)和實(shí)時數(shù)倉六個子議題超過 40 家企業(yè)機(jī)構(gòu)參與分享,包括天貓,字節(jié)跳動,亞馬遜,LinkedIn,愛奇藝,螞蟻,好未來,小米,微博,騰訊,知乎,京東,PingCAP,網(wǎng)易,360 等,后續(xù)會有更多的對分會場議題的專場分享文章,敬請期待!

總結(jié)和感想

沒有一個冬天不能逾越,沒有一個春天不會來臨。2020 年是不尋常的一年,雖然疫情肆虐,但是 Flink 社區(qū)在 2020 年持續(xù)繁榮,蟬聯(lián)最活躍的 Apache 項(xiàng)目;Flink 也成為了事實(shí)上的國內(nèi)外實(shí)時計(jì)算標(biāo)準(zhǔn)。過去一年,F(xiàn)link 在流計(jì)算引擎內(nèi)核,流批一體,AI融合,云原生這四個方向上都取得了不錯的成績,未來也會在這四個方向上繼續(xù)耕進(jìn)。

2020 年是 Flink 的新紀(jì)元,流批一體首次在阿里巴巴雙十一最核心的業(yè)務(wù)場景中落地,這將是流批一體在業(yè)界大規(guī)模推廣的起點(diǎn)。未來可期,讓我們攜手共進(jìn),一起努力,把握好機(jī)遇共同迎接挑戰(zhàn),共創(chuàng)美好的 Flink 2021!

[1] 40億條/秒!Flink流批一體在阿里雙11首次落地的背后

[2, vldb17] [State Management in Apache Flink] {https://pdfs.semanticscholar.org/6fa0/917417d3c213b0e130ae01b7b440b1868dde.pdf}

[3] [NEXMark – A Benchmark for Queries over Data] {http://datalab.cs.pdx.edu/niagara/pstream/nexmark.pdf}

責(zé)任編輯:xj

原文標(biāo)題:Flink 火了,網(wǎng)友炸了。。

文章出處:【微信公眾號:算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計(jì)算
    +關(guān)注

    關(guān)注

    2

    文章

    451

    瀏覽量

    38847
  • 實(shí)時
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    15092
  • Apache
    +關(guān)注

    關(guān)注

    0

    文章

    64

    瀏覽量

    12483

原文標(biāo)題:Flink 火了,網(wǎng)友炸了。。

文章出處:【微信號:TheAlgorithm,微信公眾號:算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    電子發(fā)燒友榮獲人民郵電出版社-異步社區(qū)“2024度最佳合作伙伴獎”

    近日,電子發(fā)燒友平臺憑借其卓越的貢獻(xiàn)和深度的合作,榮獲人民郵電出版社-異步社區(qū)頒發(fā)的“2024度最佳合作伙伴獎”。以表彰電子發(fā)燒友在過去一中為人民郵電出版社提供的優(yōu)質(zhì)書籍推廣服務(wù),以及對推動
    發(fā)表于 01-20 15:16

    回顧OpenHarmony社區(qū)2024度精彩瞬間

    ”或“開源鴻蒙”)社區(qū)2024度工作會議于深圳盛大啟幕,這場備受矚目的盛會匯聚了開源鴻蒙社區(qū)眾多成員單位,共同回顧過去一OpenHarmony
    的頭像 發(fā)表于 01-17 12:34 ?278次閱讀

    榜樣力量,智領(lǐng)未來——2024度電子發(fā)燒友社區(qū)表彰

    2024,電子發(fā)燒友社區(qū)的發(fā)展離不開眾多生態(tài)企業(yè)及活躍工程師的鼎力支持,我們精選了一批專家、講師、優(yōu)秀版主、社區(qū)之星、評測達(dá)人、優(yōu)秀創(chuàng)作者及企業(yè)進(jìn)行表彰,感謝他們
    的頭像 發(fā)表于 01-16 14:03 ?185次閱讀
    榜樣力量,智領(lǐng)未來——2024<b class='flag-5'>年</b>度電子發(fā)燒友<b class='flag-5'>社區(qū)</b>表彰

    榜樣力量,智領(lǐng)未來——2024度電子發(fā)燒友社區(qū)表彰

    、開源硬件系列直播等,還有 36場開發(fā)板測評活動,累計(jì)31061人參與申請,9011篇試用報告、5009個開發(fā)板試用作品; 2024,電子發(fā)燒友社區(qū)的發(fā)展離不開眾多生態(tài)企業(yè)及活躍工程師的鼎力支持
    發(fā)表于 01-16 13:36

    共建繁榮生態(tài)|開鴻智谷榮獲“2024度開源鴻蒙社區(qū)卓越單位”

    近日,開放原子開源基金會OpenHarmony社區(qū)2024度工作會議深圳隆重召開,作為開放原子開源基金會黃金捐贈人、OpenHarmony項(xiàng)目群A類捐贈人,同時也是開源鴻蒙生態(tài)共建
    的頭像 發(fā)表于 01-14 21:18 ?116次閱讀
    共建繁榮生態(tài)|開鴻智谷榮獲“2024<b class='flag-5'>年</b>度開源鴻蒙<b class='flag-5'>社區(qū)</b>卓越單位”

    云服務(wù)器 Flexus X 實(shí)例,Docker 集成搭建搭建 Flink

    Apache Flink 是一個分布式大數(shù)據(jù)計(jì)算引擎,專為處理無界和有界數(shù)據(jù)流上的有狀態(tài)計(jì)算而設(shè)計(jì),以其高吞吐量、低延遲和高性能在實(shí)時流處理和批量計(jì)算領(lǐng)域脫穎而出,Flink 支持批流一體化,即能
    的頭像 發(fā)表于 01-13 18:17 ?139次閱讀
    云服務(wù)器 Flexus X 實(shí)例,Docker 集成搭建搭建 <b class='flag-5'>Flink</b>

    開源鴻蒙榮獲開放原子“2024度操作系統(tǒng)領(lǐng)域國內(nèi)活躍開源項(xiàng)目

    近日,2024開放原子開發(fā)者大會暨首屆開源技術(shù)學(xué)術(shù)大會在武漢圓滿召開。大會開幕式“2024度國內(nèi)活躍開源項(xiàng)目&開發(fā)者致謝儀式”上,開放原子開源鴻蒙(OpenAtom OpenHar
    的頭像 發(fā)表于 12-28 15:39 ?429次閱讀

    2024度國內(nèi)活躍開源項(xiàng)目和開發(fā)者武漢揭曉

    近日,2024度國內(nèi)活躍開源項(xiàng)目&開發(fā)者致謝儀式,亮相2024開放原子開發(fā)者大會暨首屆開源技術(shù)學(xué)術(shù)大會開幕式。
    的頭像 發(fā)表于 12-23 11:25 ?272次閱讀

    OpenHarmony人才生態(tài)大會南向生態(tài)社區(qū)發(fā)展論壇武漢圓滿舉辦

    專家介紹OpenHarmony社區(qū)開發(fā)者手機(jī)、Watch和大屏生態(tài)共建進(jìn)展。Laval社區(qū)開發(fā)者手機(jī)共建項(xiàng)目自2023啟動,隨OpenH
    發(fā)表于 11-29 09:54

    軟通動力榮膺2024度openEuler社區(qū)突出貢獻(xiàn)單位

    、openEuler項(xiàng)目群黃金捐贈人、openEuler社區(qū)的重要參與者和貢獻(xiàn)者,軟通動力受邀出席大會主論壇,聯(lián)合發(fā)布“操作系統(tǒng)產(chǎn)業(yè)新里程碑”,并榮膺“2024度openEuler社區(qū)
    的頭像 發(fā)表于 11-20 11:50 ?441次閱讀

    基于圖遍歷的Flink任務(wù)畫布模式下零代碼開發(fā)實(shí)現(xiàn)方案

    的過程。以下是利用Flink的 StreamGraph 通過低代碼的方式,來實(shí)現(xiàn)StreamGraph的生成,并最終實(shí)現(xiàn) Flink 程序零代碼開發(fā)的解決方案。 一、Flink 相關(guān)概念
    的頭像 發(fā)表于 11-05 10:35 ?763次閱讀
    基于圖遍歷的<b class='flag-5'>Flink</b>任務(wù)畫布模式下零代碼開發(fā)實(shí)現(xiàn)方案

    傅煒先生獲RISC-V國際基金會頒發(fā)2024社區(qū)領(lǐng)導(dǎo)力獎

    剛剛結(jié)束的2024RISC-V北美峰會上,RISC-V大使傅煒先生獲得了由RISC-V國際基金會頒發(fā)的2024度RISC-V社區(qū)影響力獎(每年僅1名)。今年的獎項(xiàng)由RISC-V國際基金會的數(shù)千名
    的頭像 發(fā)表于 10-26 08:05 ?302次閱讀
    傅煒先生獲RISC-V國際基金會頒發(fā)2024<b class='flag-5'>年</b>度<b class='flag-5'>社區(qū)</b>領(lǐng)導(dǎo)力獎

    什么是 Flink SQL 解決不了的問題?

    簡介 實(shí)時數(shù)據(jù)開發(fā)過程中,大家經(jīng)常會用 Flink SQL 或者 Flink DataStream API 來做數(shù)據(jù)加工。通常情況下選用2者都能加工出想要的數(shù)據(jù),但是總會有 Flink
    的頭像 發(fā)表于 07-09 20:50 ?362次閱讀

    云服務(wù)器apache如何配置解析php文件?

    云服務(wù)器上配置Apache以解析PHP文件通常需要以下步驟: 1、安裝PHP:首先確保服務(wù)器上安裝了PHP。你可以使用包管理工具(如apt、yum等)來安裝PHP。例如,Ubun
    的頭像 發(fā)表于 04-22 17:27 ?1052次閱讀

    RDMA技術(shù)Apache Spark中的應(yīng)用

    背景介紹 在當(dāng)今數(shù)據(jù)驅(qū)動的時代,Apache?Spark已經(jīng)成為了處理大規(guī)模數(shù)據(jù)集的首選框架。作為一個開源的分布式計(jì)算系統(tǒng),Spark因其高效的大數(shù)據(jù)處理能力而在各行各業(yè)中廣受歡迎。無論是金融服務(wù)
    的頭像 發(fā)表于 03-25 18:13 ?1577次閱讀
    RDMA技術(shù)<b class='flag-5'>在</b><b class='flag-5'>Apache</b> Spark中的應(yīng)用
    主站蜘蛛池模板: 四虎视频最新视频在线观看 | 久久久精品久久久久久 | 边摸边吃奶边做激情叫床视 | 国产传媒麻豆剧精品AV | 精品国产九九 | 最近高清日本免费 | 亚洲高清在线天堂精品 | 飘雪在线观看免费完整版 | 国产精品外围在线观看 | 高冷师尊被CAO成SAO货 | yellow片在线观看免费观看动漫 | 57PAO强力打造高清免费 | 99视频精品全部免费观看 | 有码 亚洲 制服 国产 在线 | 国产精品18久久久久久欧美网址 | 亚洲精品乱码久久久久久直播 | 高清国语自产拍免费 | 小SAO货边洗澡边CAO你动漫 | 国产欧美无码亚洲毛片 | 人禽l交视频在线播放 视频 | 小sao货ji巴cao死你视频 | 久久青青草视频在线观 | 在线精品一卡乱码免费 | 亚洲欧美日韩精品久久奇米色影视 | beeg xxx日本老师 | 午夜国产大片免费观看 | 乌克兰少妇大胆大BBW | 国产成人理在线观看视频 | 香蕉97超级碰碰碰碰碰久 | 成人精品视频99在线观看免费 | 国产AV亚洲精品久久久久软件 | 一二三四在线视频社区 | 亚洲色欲H网在线观看 | 我的年轻漂亮继坶三级 | 极品少妇粉嫩小泬啪啪AV | 国产色情短视频在线网站 | 芭乐视频免费资源在线观看 | 少妇的肉体AA片免费 | 快乐激情网 | 久久伊人天堂视频网 | 久久青草费线频观看国产 |