夜夜夜夜夜夜夜工噜噜噜,午夜视频久久,手机看片福利久久

近些年，3D 自然場景的生成出現(xiàn)了大量的研究工作，但是 3D 城市生成的研究工作還寥寥無幾。這主要是因為 3D 城市生成更難，人類對于其中的結(jié)構(gòu)失真更敏感。近日，來自南洋理工大學(xué) S-Lab 的研究者提出了一個新的框架 CityDreamer，專注于生成無邊界的 3D 城市，讓我們先看一下效果。

看起來還不錯？這都來自于以下的這篇研究。

論文地址：https://arxiv.org/abs/2009.00610
項目地址：https://haozhexie.com/project/city-dreamer
代碼地址：https://github.com/hzxie/city-dreamer

為滿足元宇宙中對 3D 創(chuàng)意工具不斷增長的需求，三維場景生成最近受到了相當(dāng)多的關(guān)注。其中，生成 3D 城市比 3D 自然場景更復(fù)雜。在自然場景中，相同類別的物體通常有相似的外觀，例如樹通常是綠色的。但是在城市中，建筑的外觀非常多樣，但它們被賦予了相同的類別，這將導(dǎo)致建筑外觀的質(zhì)量下降。

為了解決這個問題，研究人員提出了 CityDreamer 以生成無邊界的 3D 城市，它將建筑和城市背景（包括道路、綠化、水域）生成分別用 2 個不同的模塊生成。這兩個模塊都采用鳥瞰（Bird's Eye View, BEV）作為場景表示，并采用體積渲染器（Volumetric Renderer ）通過對抗訓(xùn)練生成逼真的圖像。

值得注意的是，場景參數(shù)化的方式經(jīng)過精心定制，以適應(yīng)背景物體和建筑物的獨(dú)特特征。每個類別中的背景對象通常具有相似的外觀，同時呈現(xiàn)出不規(guī)則的紋理。因此，CityDreamer 引入生成哈希網(wǎng)格來保持自然性，同時維護(hù) 3D 一致性。相比之下，建筑實(shí)例表現(xiàn)出各種各樣的外觀，但其立面的紋理通常顯示出規(guī)則的周期性圖案。研究人員因此，設(shè)計了周期性位置編碼，這對于處理多樣性的建筑立面來說是簡單而有效的。

為了使生成的城市在布局上和外觀上都更逼真，研究人員們構(gòu)建了 2 個數(shù)據(jù)集：OSM 和 GoogleEarth。前者從 OpenStreetMap [1] 提取了超過 80 個知名城市、超過 6000km2 的俯視視角的高度圖和語義分割圖；后者從 Google Earth Studio [2] 上提取了美國紐約市的 400 環(huán)形軌跡，包含 24,000 張圖像及對應(yīng)的語義分割和建筑實(shí)例分割標(biāo)注。這些標(biāo)注是通過將從 OSM 數(shù)據(jù)集生成的 3D 城市布局投影至圖像上生成的。這種方式可以很容易地將標(biāo)注數(shù)據(jù)擴(kuò)展至世界上的其他城市。

方法

CityDreamer 將 3D 城市生成分解為 4 步：無邊界城市布局生成、城市背景生成、建筑實(shí)例生成和圖像融合。

無邊界城市布局生成

CityDreamer 將無限的城市布局生成轉(zhuǎn)化為可擴(kuò)展的語義地圖和高度場的生成問題。為此，CityDreamer 采用了基于 MaskGIT [3] 的無邊界布局生成器（Unbounded Layout Generator, ULG），它天然地支持 inpainting 和 outpainting 功能。具體來說，ULG 使用了 VQVAE 來編碼語義圖和高度場的圖像切片，將它們轉(zhuǎn)換為離散潛在空間并創(chuàng)建 Codeboook。在推理過程中，ULG 以自回歸的方式生成 Codebook 索引，隨后，ULG 使用 VQVAE 的解碼器生成一對語義圖和高度場。由于 VQVAE 生成固定大小的語義圖和高度場，因此 ULG 使用圖像 outpainting 來創(chuàng)建任意大小的語義圖和高度場。在此過程中，ULG 采用滑動窗口來預(yù)測每一步的局部 Codebook 索引，滑動期間有 25% 的重疊。

城市背景生成

City Background Generator (CBG) 主要用于生成城市的背景，具體包括道路、綠化和水域。該模塊使用了鳥瞰視圖（BEV）作為場景的表示。具體而言，該表示使用由語義圖和高度圖組成的 BEV 表征來表達(dá)一個大尺度三維場景。

針對城市背景相同類別通常具有相似外觀的特性，CBG 引入生成哈希網(wǎng)格（Generative Hash Grid）作為場景的參數(shù)化：保持自然性，同時維護(hù) 3D 一致性。具體而言，CBG 使用哈希函數(shù)

來將場景特征

和空間點(diǎn)坐標(biāo)

映射到多尺度混合的可學(xué)習(xí)參數(shù)上：

為了保證渲染的三維一致性，我們使用基于體積渲染的渲染網(wǎng)絡(luò)來完成三維空間特征到二維圖像的映射。對于相機(jī)光線上的一點(diǎn)，我們經(jīng)過查詢生成式哈希網(wǎng)格得到其對應(yīng)的特征，使用經(jīng)風(fēng)格噪聲調(diào)制的多層 MLP 來得到其對應(yīng)點(diǎn)的顏色和體密度，最終通過體渲染來將一條相機(jī)光線上的所有點(diǎn)積分為對應(yīng)像素的顏色。

建筑實(shí)例生成

Building Instance Generator (BIG) 用于生成城市的建筑。和城市背景生成一樣，我們使用了鳥瞰視圖作為場景的表示，使用基于體積渲染的渲染網(wǎng)絡(luò)來完成三維空間特征到二維圖像的映射。觀察到建筑立面和屋頂分布的顯著差異，建筑立面和屋頂在 BIG 中被分配了 2 個不同的類別標(biāo)簽。

針對建筑立面所呈現(xiàn)出的周期性規(guī)律，我們設(shè)計了更輕量化的場景參數(shù)化方式：基于周期性函數(shù)的場景參數(shù)化。具體而言，BIG 將建筑特征

和空間坐標(biāo)

通過周期性函數(shù)映射到一個高維空間中：

其中，$ m Concat$ 表示連接（Concatenation）操作，

?被定義為

圖像融合

給定城市背景的圖像和掩膜（分別用

和

表示）以及建筑實(shí)例的圖像和掩膜的集合（分別用

和

表示），CityDreamer 使用如下方式得到融合后的圖像

其中 n 表示建筑實(shí)例的數(shù)量。

實(shí)驗

下圖展示了 CityDreamer 和其他 SOTA 方法的對比，這些方法包括 PersistentNature [4]、SceneDreamer [5] 和 InfiniCity [6]。實(shí)驗結(jié)果表明，CityDreamer 的效果明顯優(yōu)于其他方法。

下圖展示了更多視角的生成結(jié)果，該結(jié)果證明了 CityDreamer 的魯棒性。

參考文獻(xiàn)：

[1] https://openstreetmap.org

[2] https://earth.google.com/studio

[3] Chang et al. MaskGIT: Masked Generative Image Transformer. CVPR 2022.

[4] Lin et al. InfiniCity: Infinite-Scale City Synthesis. ICCV 2023.

[5] Chai et al. Persistent Nature: A Generative Model of Unbounded 3D Worlds. CVPR 2023.

[6] Chen et al. SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections. arXiv 2023.

原文標(biāo)題：CityDreamer：一鍵生成無邊界的3D城市

文章出處：【微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2912

文章
44915

瀏覽量
376058

原文標(biāo)題：CityDreamer：一鍵生成無邊界的3D城市

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

騰訊混元3D AI創(chuàng)作引擎正式發(fā)布

的AI技術(shù)，能夠根據(jù)用戶提供的提示詞或圖片，直接生成高質(zhì)量的3D模型。這一功能極大地降低了3D內(nèi)容創(chuàng)作的門檻，使得即使是缺乏專業(yè)3D建模技能

發(fā)表于 01-23 10:33 ?126次閱讀

騰訊混元3D AI創(chuàng)作引擎正式上線

近日，騰訊公司宣布其自主研發(fā)的混元3D AI創(chuàng)作引擎已正式上線。這一創(chuàng)新性的創(chuàng)作工具，標(biāo)志著騰訊在3D內(nèi)容生成領(lǐng)域邁出了重要一步。混元

發(fā)表于 01-22 10:26 ?119次閱讀

一鍵斷電開關(guān)的種類有哪些

一鍵斷電開關(guān)的種類主要可以從其功能和實(shí)現(xiàn)方式上進(jìn)行分類。以下是一些常見的一鍵斷電開關(guān)種類： 1. 繼電器式一鍵斷電開關(guān) 定義：這種開關(guān)通過繼電器或接觸器控制電路的通斷，實(shí)現(xiàn)

發(fā)表于 09-13 16:45 ?1325次閱讀

一鍵斷電開關(guān)的控制原理是什么

一鍵斷電開關(guān)，也被稱為緊急斷電開關(guān)或緊急停止開關(guān)，是一種安全裝置，用于在緊急情況下迅速切斷電源，以防止事故的發(fā)生或擴(kuò)大。這種開關(guān)的設(shè)計和應(yīng)用在工業(yè)、實(shí)驗室、醫(yī)療設(shè)備以及任何需要快速斷電的場合都

發(fā)表于 09-13 16:28 ?1492次閱讀

變電站一鍵順控系統(tǒng)和開關(guān)柜一鍵順控有區(qū)別嗎？

變電站一鍵順控系統(tǒng)和開關(guān)柜一鍵順控技術(shù)雖然都涉及到“一鍵順控”的概念，但它們在應(yīng)用范圍和具體實(shí)現(xiàn)上有所不同，因此變電站一鍵順控系統(tǒng)和開關(guān)柜一鍵

發(fā)表于 07-31 13:34 ?664次閱讀

歡創(chuàng)播報騰訊元寶首發(fā)3D生成應(yīng)用

1 騰訊元寶首發(fā)3D生成應(yīng)用只需一張照片，便能迅速打造獨(dú)一無二的3D角色。7月16日，騰訊旗下大模型應(yīng)用“騰訊元寶”上線了“

發(fā)表于 07-18 11:39 ?797次閱讀

Meta推出革命性3D Gen AI模型：1分鐘內(nèi)生成高質(zhì)量3D內(nèi)容

在科技日新月異的今天，Meta再次引領(lǐng)創(chuàng)新潮流，宣布了一項令人矚目的技術(shù)突破——3D Gen AI模型的誕生。這款先進(jìn)的模型以其前所未有的高效性與卓越品質(zhì)，重新定義了3D內(nèi)容創(chuàng)作的邊界

發(fā)表于 07-04 18:12 ?1055次閱讀

奧比中光3D相機(jī)打造高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案

高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案。 Moverse公司總部位于希臘塞薩洛尼基，是三維動畫相關(guān)媒體和娛樂行業(yè)的一家科技創(chuàng)業(yè)公司。基于奧比中光

發(fā)表于 06-25 16:37 ?1128次閱讀

GIS智慧城市 3D 可視化，應(yīng)急管控一屏解決 #三維可視化 #智慧城市 #GIS

3D智慧城市

阿梨是蘋果
發(fā)布于 :2024年05月23日 11:23:26

簡析智慧燈桿一鍵告警功能的實(shí)用場景

智慧路燈桿是一種兼具智能化和多功能的新型物聯(lián)網(wǎng)基礎(chǔ)設(shè)施，通過搭載一鍵告警對講盒，能夠大大豐富安防及報警求助資源，對提升城市的安全性和管理效能具有重要的作用。本篇就結(jié)合城市中的不同場景，

發(fā)表于 04-28 16:42 ?402次閱讀

智慧桿一鍵報警連入網(wǎng)關(guān)后無法對講是什么原因？

一鍵式對講報警盒是智慧路燈桿上常見的掛載外設(shè)之一，能夠為公共安全提供即時支持，增強(qiáng)城市管理的智能化和應(yīng)急反應(yīng)能力。本篇就為大家簡單介紹一下在智慧路燈桿上部署

發(fā)表于 03-28 17:25 ?433次閱讀

NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

NVIDIA 研究人員使 LATTE3D （一款最新文本轉(zhuǎn) 3D 生成式 AI 模型）實(shí)現(xiàn)雙倍加速。

發(fā)表于 03-27 10:28 ?537次閱讀

Stability AI推出Stable Video 3D模型，可制作多視角3D視頻

SV3D_u是Stable Video 3D的一個版本，僅需單幅圖片即可生成運(yùn)動軌跡視頻，無須進(jìn)行相機(jī)調(diào)整。擴(kuò)充版本的SV3D_p加入了軌道

發(fā)表于 03-21 14:57 ?1079次閱讀

Adobe Substance 3D整合AI功能：基于文本生成紋理、背景

Substance 3D Stager是以Adobe Dimension為基礎(chǔ)改造而成，使用者可直觀地進(jìn)行3D場景構(gòu)建，包括模型、材質(zhì)和燈光等要素。借助其強(qiáng)大功能，能夠生成極具觀賞性的虛擬照片。

發(fā)表于 03-20 10:28 ?812次閱讀

Adobe提出DMV3D：3D生成只需30秒！讓文本、圖像都動起來的新方法！

因此，本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此，他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴(kuò)散模型，能

發(fā)表于 01-30 16:20 ?925次閱讀