色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TensorFlow宣布開源TXF的一個重要組件:“數據驗證”

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-24 09:35 ? 次閱讀

編者按:在KDD 2017上,Google推出基于TensorFlow的可擴展機器學習平臺TFX,主打管理數據、訓練模型、模型評估和模型服務四塊內容。而今天,TensorFlow宣布開源TXF的一個重要組件:“數據驗證(tf.DataValidation)”,可幫助開發人員更好地認識數據,并將其用于機器學習。

ML算法及其性能一直是學術界和工業界關注的一個重點,如果輸入數據有誤,所有的優化工作就會付諸東流。在數據量較少的時候,理解和驗證數據只是一項微不足道的任務,但是在實踐中,研究人員使用的數據量往往非常龐大,這就給手動檢查造成了巨大壓力。因此,自動化數據分析、驗證和監管是有必要的。

TFDV(數據驗證)是TFX平臺的一部分,它也是Google每天用來分析和驗證數PB數據的技術。鑒于此前它在數據糾錯上一直有不錯的表現,Google相信,TFDV也可以被用戶作為維持ML模型性能的一個好工具。

在設計TFDV的早期,Google就已經考慮到了在筆記本電腦環境中使用它的需求,所以對于硬件要求,大家可以放寬心。

計算描述性數據統計

TFDV可以計算描述性統計數據,根據存在的特征和值分布的形狀快速概述數據。這些統計信息有助于開發人員調查和了解他們的數據,并據此推斷數據模式。

用TFDV計算統計信息:

stats = tfdv.generate_statistics_from_tfrecord(data_location=path)

可視化:

推斷數據模式

所謂數據模式,就是描述數據的預期性能,它可以包括:

預計將出現哪些特征

它們的類型

每個樣本中,一個特征有幾個值

所有樣本中,每個特征的出現幾率

特征的預期域

簡而言之,模式描述了對“正確”數據的期望,因此可被用于檢測數據中的錯誤。但是在實踐中,編寫模式可能是非常繁瑣的,尤其是對于具有大量特征的數據集。TFDV提供了一種基于描述性統計信息,生成旨在反映數據穩定特征的模式的方法:

#根據統計信息推斷模式

schema = tfdv.infer_schema(train_stats)

#以表格格式顯示內聯模式

tfdv.display_schema(schema)

上圖是個簡單的可視化,列出了數據集中的每個特征以及它在編碼模式下的主要特征。

驗證新數據

給定一個模式,TFDV可以根據模式中的期望驗證一組新數據。

#統計一組新數據

new_stats = tfdv.generate_statistics_from_csv(NEW_DATA)

#比較新數據如何符合模式

anomalies = tfdv.validate_statistics(new_stats, schema)

#顯示內聯異常

tfdv.display_anomalies(異常)

上述異常報告了新數據和模式之間的差別

驗證持續添加的數據

對于數據集中不斷增加的新數據,我們需要用原模式對它們進行驗證。但是,在常規設置中,這個模式每個一段時間都會維護一次,它基于統計信息,而統計信息又會受新加入的數據影響。因此,之前我們推斷的模式只是原始模式,它還必須要能隨著時間推移不斷變化。

用validate_statistics驗證新添加的數據

如果想可視化不同數據集(不同日期的數據集)的統計數據,用visualize_statistics:

用Facets可視化兩組數據的比較,示例:DAY1、DAY2票價對比

TFDV還可以檢測連續版本訓練數據之間的分布變化,這有助于對比連續版本數據集之間的統計信息,如果發現有刪改/添加的情況,應及時在檢查數據異常時,更新信息。此外,TFDV還能檢查訓練數據和服務系統觀察到的數據之間的特征值/分布差異,并用Facets可視化。

Github:github.com/tensorflow/data-validation

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133024
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24810
  • tensorflow
    +關注

    關注

    13

    文章

    329

    瀏覽量

    60615

原文標題:TensorFlow新庫TFDV:大規模理解、驗證和監控你的ML數據

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    關于 TensorFlow

    關于 TensorFlowTensorFlow? 是采用數據流圖(data flow graphs),用于數值計算的開源軟件庫。節點(Nodes)在圖中表示數學操作,圖中的線(ed
    發表于 03-30 19:57

    MIPS宣布開源

    ,12月17日宣布MIPS將在2019年第季度發布最新的core R6時開源,此舉旨在加速MIPS指令集架構的普及。MIPS開放計劃將允許參與者自由訪問“最新版本的32位和64位MIPS ISA
    發表于 12-21 10:36

    情地使用Tensorflow吧!

    關于 TensorFlowTensorFlow? 是采用數據流圖(data flow graphs),用于數值計算的開源軟件庫。節點(Nodes)在圖中表示數學操作,圖中的線(ed
    發表于 07-22 10:13

    TensorFlow是什么

    TensorFlow 在深度學習模型中的應用,使讀者可以輕松地將模型用于數據集并開發有用的應用程序。每章包含系列處理技術問題、依賴性、代碼和解讀的示例,在每章的最后,還有
    發表于 07-22 10:14

    TensorFlow、PyTorch,“后浪”OneFlow 有沒有機會

    TensorFlow、PyTorch,“后浪”OneFlow 有沒有機會 | 流科技工程師成誠編者按:7月31日,流科技在創業1300天后,他們宣布
    發表于 07-27 08:24

    南京E創譚小慧:介紹OpenEDI開源數據基礎組件

    2021大會的“openDACS V1.0 主線版本開源論壇”,代表E創介紹了“開源發布-OpenEDI開源數據基礎組件”。本文采用知識共
    發表于 07-01 14:37

    蔚來汽車掛牌紐交所,12位車主“替”李斌敲了鐘

    重要組件:「數據驗證(tf.DataValidation)」,可幫助開發人員更好地認識
    的頭像 發表于 09-16 10:46 ?3537次閱讀

    谷歌推出了AdaNet,基于TensorFlow的輕量化框架

    AdaNet采用TensorFlow估計器的交互界面,它通過簡單訓練、評估,大大簡化了機器學習的編程過程。它把TensorFlow Hub模塊、TensorFlow模型分析和谷歌云的超參數調整期等
    的頭像 發表于 11-05 15:27 ?3172次閱讀

    谷歌推出開源的量子機器學習庫TensorFlow Quantum

    谷歌在其官方AI博客宣布推出TensorFlow Quantum(TFQ),這是開源的量子機器學習庫,可將量子計算與機器學習結合在
    的頭像 發表于 03-11 14:25 ?2501次閱讀

    開源機器學習平臺TensorFlow的更新內容

    TensorFlow 2.2.0-rc0已發布,據官方介紹,TensorFlow采用數據流圖(data flow graphs),用
    的頭像 發表于 03-15 14:53 ?1988次閱讀

    鴻蒙滑動拼圖驗證組件分享 已開源

    ?? 基于安卓平臺的滑動拼圖驗證組件 SwipeCaptcha,實現了鴻蒙化遷移和重構,代碼已經開源,目前已經獲得了很多人的 Star 和 Fork ,歡迎各位下載使用并提出寶貴意見
    的頭像 發表于 12-03 10:04 ?2877次閱讀
    鴻蒙滑動拼圖<b class='flag-5'>驗證</b><b class='flag-5'>組件</b>分享 已<b class='flag-5'>開源</b>

    2022 OpenHarmony組件大賽,共建開源組件

    繁榮、充滿活力的OpenHarmony開源社區。 眾家共建人才匯聚 OpenHarmony開源組件生態蓬勃發展 在計算機編程中,
    的頭像 發表于 04-26 17:31 ?1600次閱讀
    2022 OpenHarmony<b class='flag-5'>組件</b>大賽,共建<b class='flag-5'>開源</b><b class='flag-5'>組件</b>

    TensorFlow手勢識別樹莓派開源

    電子發燒友網站提供《TensorFlow手勢識別樹莓派開源.zip》資料免費下載
    發表于 11-09 09:27 ?1次下載
    <b class='flag-5'>TensorFlow</b>手勢識別樹莓派<b class='flag-5'>開源</b>

    驗證組件配置參數

    些典型 的 驗證組件 配 置參數示例:? agent可以被配置為 active 或者 passive 模式。在active模式下age
    的頭像 發表于 06-14 10:20 ?655次閱讀
    <b class='flag-5'>驗證</b><b class='flag-5'>組件</b>配置參數

    開源MCU級的命令行交互組件

    開源MCU級命令行交互組件~
    的頭像 發表于 10-17 16:26 ?484次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>個</b><b class='flag-5'>開源</b>MCU級的命令行交互<b class='flag-5'>組件</b>
    主站蜘蛛池模板: 一区二区三区高清视频 | 精品在线观看一区 | 奇米色偷偷 | 北条麻妃快播 | caoporen超碰在线视频 | 国内精品乱码卡一卡2卡三卡 | 一区二区三区内射美女毛片 | 69精品人人人人 | 日日AV夜夜添久久奶无码 | 日韩精品 电影一区 亚洲高清 | 国产精品久久久久久影院 | 年轻的搜子8中字在线观看 年轻的朋友4在线看中文字幕 | 天天影视色欲 影视 | 十分钟免费视频大全在线观看 | 欧美顶级情欲片免费看 | www.免费视频| 国产人妻人伦精品836700 | 不卡的在线AV网站 | 国产日韩精品SUV | 国产在线视频一区二区不卡 | 乱辈通奷XXXXXHD猛交 | 手机在线成人精品视频网 | 精品久久久无码21P发布 | 日韩成人性视频 | 草莓视频免费在线观看 | 人善交XUANWEN200喷水 | 九九热这里只有国产精品 | 免费精品美女久久久久久久久久 | 成品片a免人看免费 | 亚洲精品中文字幕一二三四区 | 免费毛片a在线观看67194 | 久久re热在线视频精6 | 57PAO强力打造高清免费 | 成人久久欧美日韩一区二区三区 | 久久精品视频免费 | 国产精品无码人妻在线 | 成人欧美尽粗二区三区AV | wwwav在线 | 内地同志男16china16 | 男男女女爽爽爽视频免费 | 久久热免费视频 |