色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

僅憑聲音,AI 就能“腦補”你的臉!測試結果精度可以達到 90.25%

5RJg_mcuworld ? 來源:YXQ ? 2019-04-08 10:10 ? 次閱讀

【導語】之前我們為大家介紹過一項非常酸爽的研究“Talking Face Generation”:給定音頻視頻后(輸入),可以讓任意一個人的面部特征與輸入的音視頻信息保持一致,也就是說出輸入的這段話。當時就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過,近期一項新研究再度抓到了筆者的眼睛!在最新的研究中,研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作,此乃頭一次見啊!接下來就為大家介紹一下這項工作!

音頻和圖像是人類最常用的兩種信號傳輸模式,圖像傳達的信息非常直觀,而語音包含的信息其實比我們想象的要更豐富,包括說話人的身份,性別和情緒狀態等等。從這兩個信號中提取的特征通常是高度相關的,可以讓人僅聆聽聲音就可以想象他的視覺外觀。WAV2PIX 的工作就是僅利用語音輸入,來生成說話者的人臉圖像。其實這就是一個跨模態的視覺生成任務。

談到這項研究的貢獻,主要有三點:

提出了一個能夠直接從原始的語音信號生成人臉的條件GAN:WAV2PIX;

提供了一個在語音和人臉兩方面綜合質量很高的一個數據集:Youtubers

實驗證明論文的方法可以生成真實多樣的人臉。

論文收集了大V用戶(Youtubers)上傳到 Youtube 的演講視頻,這些視頻通常具有高質量的說話環境、表達方式、人臉特征等。Youtubers 數據集主要由兩部分組成:一個是自動生成的數據集和一個手動處理后的高質量的子集。

主要的預處理工作:

音頻最初下載的是高級音頻編碼(AAC)格式,44100 Hz,立體聲。因此轉換為 WAV 格式,并重新采樣到 16 kHz,每個樣例占 16 位并轉換為單聲道。

采用基于 Haar 特征的人臉檢測器來檢測正臉。僅采納置信度高的幀

保存檢測出來的那幀圖像及前后兩秒的語音幀,以及一個標簽(identity)。

方法介紹

研究主要由三個模塊構成:一個是語音編碼器,一個是圖片生成網絡,一個是圖片判別網絡。

語音編碼器(Speech Encoder):已有的方法大多數是手工提取音頻特征,并不是針對生成網絡的任務進行優化的,而 SEGAN 提出了一種在波形上用于語音處理的方法。因此作者在已有的工作 SEGAN 上進行修改。修改為具有 6 層一維網絡,并且每層的 kernel 大小是 15x15,步長為 4,然后每層卷積網絡后面使用 LeakyReLU 激活函數,網絡的輸入通道是 1。輸入 16kHZ 下1 秒的語音片段,上述的卷積網絡可以得到一個 4x1024 的張量,然后采用三個全連接網絡將特征數量從 4x1024 降到 128。作為生成器網絡的輸入。

圖片生成器(Image Generator Network):輸入是語音編碼器的 128 向量。采用二維轉置卷積、插值、dropout 等方式將輸入轉為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數中添加了一個輔助損失用于保持說話人的標簽(Identity)。

圖片判別器(Image Discriminator Network):判別器由幾層步長為 2,kernel 大小是 4x4 的卷積網絡組成,并使用譜歸一化和 LeakyReLU 激活函數。當張量為 4x4 時,作者拼接了語音的輸入,并采用最后一層網絡來計算 D 網絡的分數。

實驗過程

訓練:將手動處理后的數據集作為訓練集,采用數據增強等手動。值得注意的是,在處理時將每張圖像復制了 5 次,并將其與 4 秒音頻里面隨機采樣的 5 個不同的1秒音頻塊進行匹配。因此總共有 24K 左右的圖像-音頻對用于模型訓練。其它超參數采用參考的文獻設置。

評估:下圖給出了可視化的結果,雖然生成的圖像都比較模糊,但基本可以觀察到人的面部特征,并且有不同的面部表情。

作者進一步微調了一個預訓練的 VGG-FACE Descriptor 網絡,用于量化測試結果,在作者提供的數據集上,可以達到 76.81% 的語音識別準確率和 50.08% 的生成圖像準確率。

為了評估模型生成圖像的真實程度,作者定義了一個 68 個人臉關鍵點的精度檢測分數。如下圖所示,測試結果精度可以達到 90.25%。表明在大多數情況下生成的圖像保留了基本的面部特征。

感興趣的小伙伴們可以下載閱讀研究一下~

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音
    +關注

    關注

    3

    文章

    385

    瀏覽量

    38128
  • AI
    AI
    +關注

    關注

    87

    文章

    31494

    瀏覽量

    270256

原文標題:僅用語音,AI 就能“腦補”你的臉! | 技術頭條

文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    影響OTDR測試結果的因素

    測試參數設置 1.1 脈沖寬度 OTDR的脈沖寬度決定了測試的動態范圍和分辨率。較短的脈沖寬度可以提供更高的分辨率,但會降低動態范圍;而較長的脈沖寬度則相反。因此,選擇合適的脈沖寬度對于獲得準確的
    的頭像 發表于 12-31 09:22 ?236次閱讀

    請問ADS1292是否可以用于電采集以及電路如何設計?

    ADS1292的設計主要用于心電采集,然而我想使用這款芯片采集電信號,但并沒有相關的電路設計以及時候這樣可行,我想請問ADS1292是否可以用于電采集以及電路如何設計?
    發表于 12-17 07:23

    如何提升絕緣電阻測試儀的測量精度

    絕緣電阻測試儀是一種用于測量電氣設備絕緣性能的儀器,其測量精度對于確保電氣系統的安全運行至關重要。以下是一些提升絕緣電阻測試儀測量精度的方法,這些方法
    的頭像 發表于 12-10 15:10 ?365次閱讀

    浪潮信息加速AI+醫療應用開發與落地

    患者填寫病情,AI可以生成診前報告;候診間隙,智能醫生就能梳理病情;做完CT,幾分鐘內便可得到診斷結果……這些“黑科技”正在多家醫院中成為現實,助力提升診療效率與診斷
    的頭像 發表于 12-09 15:35 ?274次閱讀

    直線電機的精度達到多少?和重復定位精度一樣嗎

    直線電機是目前精度非常高的一種電機,精度越高,停止的實際位置與要求位置之間的誤差值越小,那么直線電機的精度達到多少?一般來說,直線電機可以
    的頭像 發表于 12-05 16:01 ?515次閱讀

    ESD HBM測試差異較大的結果分析

    ESD HBM測試結果差異較大的原因,通常包括設備/儀器差異、?校準和維護水平不同、?環境條件差異、?測試樣本差異、?測試操作員技能和經驗差異以及
    的頭像 發表于 11-18 15:17 ?582次閱讀
    ESD HBM<b class='flag-5'>測試</b>差異較大的<b class='flag-5'>結果</b>分析

    使用ADS1299進行電信號采集時采集不到電信號,怎么解決?

    您好!我這邊在使用ADS1299進行電信號采集時采集不到電信號,用信號發生器進行測試,能采集到0.5uV左右的正弦波,文檔中是該芯片的原理圖和電極連接方式說明,請問是否有問題?還麻煩指教,謝謝!
    發表于 11-13 06:52

    “元企智”EPAI:企業AI應用從“手工作坊”到“工廠高精產線”

    消滅“節后綜合癥”,“元企智”EPAI為職場人送出AI助攻
    的頭像 發表于 10-09 15:33 ?1982次閱讀
    “元<b class='flag-5'>腦</b>企智”EPAI:企業<b class='flag-5'>AI</b>應用從“手工作坊”到“工廠高精產線”

    使用LMH7322測量脈沖占空比,誤差精度達到0.1怎么改進?

    上圖是我用 LMH7322 高速比較器 測試占空比時輸出的波形 ,測試頻率為:100HZ---5MHZ,誤差精度達到 0.1 ,未能達到
    發表于 08-30 07:44

    AI芯片的混合精度計算與靈活可擴展

    、NPU、DSP等。 ? 而無論是哪種架構,如何判斷其性能優劣都至關重要,而這就涉及到AI芯片的各項性能指標,如算力、能效、時延等。其中AI芯片的算力精度是衡量其處理數據能力的重要指標之一,它涉及到芯片在執行計算任務時所能
    的頭像 發表于 08-23 00:08 ?5067次閱讀

    視覺檢測精度達到 0.01 嗎

    在現代工業生產和質量控制領域,視覺檢測技術因其高效、非接觸式測量等優勢而備受青睞。然而,對于許多對精度要求極高的應用場景,一個關鍵的問題是:視覺檢測精度能否達到 0.01級別?研訊科技旗下分公司蘇州
    的頭像 發表于 08-22 11:20 ?353次閱讀
    視覺檢測<b class='flag-5'>精度</b>能<b class='flag-5'>達到</b> 0.01 嗎

    低功耗高精度壓控溫晶振應用方案

    隨著移動衛星通信、無線基站、雷達、儀器儀表和工業化/自動化等領域的迅速發展,市場對于低功耗、高精度和高穩定性的壓控溫晶振(VC-TCXO)的需求也越來越高。為滿足這一市場需求,YXC公司推出
    發表于 08-16 15:45 ?2次下載

    基于FPGA的類計算平臺 —PYNQ 集群的無監督圖像識別類計算系統

    計算的特性,搭建出基于 PYNQ 集群的通用低功耗的大規模類計算平臺,并通過皮質層視覺仿真模型、HPC Benchmark 等進行了結果驗證和性能測試。 (3)本設計設計的基于 NEST 仿真器
    發表于 06-25 18:35

    國產ADC可以替換AD7799在高精度微電信號測試儀中應用

    國產ADC可以替換AD7799在高精度微電信號測試儀中應用
    的頭像 發表于 04-16 09:42 ?2213次閱讀
    國產ADC<b class='flag-5'>可以</b>替換AD7799在高<b class='flag-5'>精度</b>微電信號<b class='flag-5'>測試</b>儀中應用

    STM32G474 HRTIM校準精度可以達到多少?

    HRTIM提到有校準功能,保證它的高精度輸出,并且按照指定的校準周期會去校準,那么這個校準精度可以達到多少?手冊中暫時未找到,請問有誰知道嗎?
    發表于 04-09 07:09
    主站蜘蛛池模板: 9位美女厕所撒尿11分 | 色青青草原桃花久久综合 | 国产AV亚洲一区精午夜麻豆 | 国产免费麻传媒精品国产AV | 成人免费视频在 | 9久高清在线不卡免费无吗视频 | 3d无遮挡h肉动漫在线播放 | 久久操韩国自偷拍 | 婷婷激情综合色五月久久竹菊影视 | 337p欧洲亚大胆精品 | 日本熟妇乱人伦A片精品软件 | 日本无码专区亚洲麻豆 | 6080YYY午夜理论片在线观看 | 草草色| 精品视频免费在线 | 国产成人片视频一区二区青青 | 成片免费观看视频大全 | 久爱在线中文在观看 | 大胸女晃奶动态图 | 亚洲AV无码乱码国产精品品麻豆 | 亚洲AV无码乱码国产麻豆穿越 | 成人免费视频在线播放 | 日本特殊精油按摩 | 男生在床上脱美女 胸 | 九九免费高清在线观看视频 | 亚洲日韩天堂在线中文字幕 | 国产日韩欧美另类 | 国产一区日韩二区欧美三区 | 国产精品18久久久久久白浆. | 亚洲免费在线视频观看 | 国产成人免费视频 | 蜜芽tv在线www | 一个人免费观看HD完整版 | 无止侵犯高H1V3无止侵犯 | 国产精品久久久久久久久齐齐 | 91进入蜜桃臀在线播放 | 插曲的痛30分钟视频最新章节 | 少妇高潮A片特黄久久精品网 | 精品国产乱码久久久久久软件 | 久久这里只有精品国产99 | 浪潮AV色综合久久天堂 |