国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

一秒把大象P轉身!清華校友論文引爆AI繪圖圈,Diffusion黯然失色

5月18日,一顆炸彈在A(yíng)I繪圖圈炸響。

從此,AI可以精準修圖了,哪里不準修哪里,AIGC,已然到達了全新的里程碑!

這篇引爆繪圖圈的核彈級論文,名為「Drag Your GAN」,由MPII、MIT、賓大、谷歌等機構的學(xué)者聯(lián)合發(fā)布。目前已被SIGGRAPH 2023錄用。


(資料圖)

而且因為太過(guò)火爆,這個(gè)項目一經(jīng)發(fā)布,網(wǎng)頁(yè)就經(jīng)常處于崩潰狀態(tài)。

項目地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/

顧名思義,通過(guò)DragGAN,就可以任意拖動(dòng)圖像了,無(wú)論是對象的形狀、布局、姿態(tài)、表情、位置、大小,都可以做到精準控制。

只要拖拽動(dòng)作,確定生成圖像的起點(diǎn)和終點(diǎn),再根據對象的物理結構,用GAN生成在精細尺度上符合邏輯的圖像,一張挑不出破綻的圖就生成了。

拍的照片表情不好?修!臉型不夠瘦?修!臉沖鏡頭的角度不對?修!

(簡(jiǎn)直就是一個(gè)超強版的Photoshop)

輕輕一拖動(dòng),就能想把耷拉著(zhù)的狗耳朵提起來(lái),讓狗狗從站著(zhù)變成趴下,以及讓狗狗瞬間張嘴微笑。

現在,甲方提出「讓大象轉個(gè)身」的要求,終于可以實(shí)現了。

所以,廣大修圖師的飯碗是要被端了?

從此,我們正式進(jìn)入「有圖無(wú)真相」時(shí)代。

準備好,一大波演示來(lái)了

這種DragGAN可控圖像合成方法,具有廣泛的應用場(chǎng)景,只有你想不到,沒(méi)有它做不到。

Midjourney、Stable Diffusion、Dalle-E等AI繪圖工具生成的圖像,都可以用DragGAN來(lái)微調細節,生成任何想要的效果。

模特的姿勢可以隨意改變,短褲可以變成九分褲,短袖可以變長(cháng)袖。

湖邊的樹(shù)可以瞬間長(cháng)高,湖里的倒影也跟著(zhù)一起改變。

原圖中的太陽(yáng)沒(méi)露臉?無(wú)所謂,DragGAN會(huì )給你造個(gè)日出。

貓貓的正臉一下子變側臉,角度精細可調。

甚至連汽車(chē)也能一鍵「敞篷」。

不得不說(shuō),AI繪圖圈,真的太卷了。上一個(gè)工具還沒(méi)完全學(xué)會(huì )呢,下一個(gè)革命性產(chǎn)品就又來(lái)了。

有了DragGAN的加持,各種AI畫(huà)圖工具的「阿喀琉斯之踵」再也不是弱點(diǎn)。

并且,DragGAN在單顆3090顯卡上生成圖像,僅僅需要幾秒鐘。

可以想象,繪圖、動(dòng)畫(huà)、電影、電視劇等領(lǐng)域,都將迎來(lái)大地震。

DragGAN看起來(lái)像Photoshop的Warp工具,但它的功能實(shí)現了核彈級的增強——它讓你不只是在像素周?chē)?jiǎn)單地移動(dòng),而是使用AI來(lái)重新生成底層對象,甚至還能像3D一樣旋轉圖像。

研究者團隊指出,這項工作真正有趣的地方不一定是圖像處理本身,而是用戶(hù)界面。

我們早就能用GAN之類(lèi)的AI工具來(lái)生成逼真的圖像,但缺乏足夠的靈活性和精度,無(wú)法得到我們想要的確切姿勢。

但DragGAN提供的,絕不是簡(jiǎn)單地涂抹和糊化現有像素,而是重新生成主體。

正如研究者所寫(xiě):「你的方法可以產(chǎn)生幻覺(jué),就像獅子嘴里的牙齒一樣,并且可以隨著(zhù)物體的剛性而變形,就像馬腿的彎曲一樣?!?/p>

DragGAN的橫空出世表明,GAN模型開(kāi)始模型了,或許它會(huì )比Diffusion模型(DALLE.2、Stable Diffusion和Midjourney)更具影響力。

此前,Diffusion模型一直在A(yíng)I繪圖領(lǐng)域大受歡迎,但生成式對抗網(wǎng)絡(luò )GAN也引起了人們廣泛的興趣,Ian Goodfellow2017年提出GAN理論后,三年后它再次復興。

DragGAN:圖像處理新時(shí)代

在這項工作中,團隊研究了一種強大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點(diǎn)精確「拖動(dòng)」至目標點(diǎn)。

DragGAN主要包括以下兩個(gè)主要組成部分:

1. 基于特征的運動(dòng)監控,驅動(dòng)操作點(diǎn)向目標位置移動(dòng)

2. 一個(gè)新的點(diǎn)跟蹤方法,利用區分性的GAN特征持續定位操作點(diǎn)的位置

通過(guò)DragGAN,任何人都可以對像素進(jìn)行精確的控制,進(jìn)而編輯如動(dòng)物、汽車(chē)、人類(lèi)、風(fēng)景等多種類(lèi)別的姿態(tài)、形狀、表情和布局。

由于這些操作在GAN的學(xué)習生成圖像流形上進(jìn)行,因此它們傾向于生成逼真的輸出,即使在富有挑戰性的場(chǎng)景下也是如此,例如被遮擋的內容和變形的圖像。

定性和定量的對比表明,DragGAN在圖像操作和點(diǎn)跟蹤任務(wù)中,都明顯優(yōu)于先前的方法。

拖拽編輯

在DragGAN的加持下,用戶(hù)只需要設置幾個(gè)操作點(diǎn)(紅點(diǎn)),目標點(diǎn)(藍點(diǎn)),以及可選的表示可移動(dòng)區域的mask(亮區)。然后,模型就會(huì )自動(dòng)完成后續的圖像生成,

其中,動(dòng)態(tài)監控步驟會(huì )讓操作點(diǎn)(紅點(diǎn))向目標點(diǎn)(藍點(diǎn))移動(dòng),點(diǎn)追蹤步驟則通過(guò)更新操作點(diǎn)來(lái)追蹤圖像中的對象。此過(guò)程會(huì )一直持續,直到操作點(diǎn)達到其相應的目標點(diǎn)。

流程

具體來(lái)說(shuō),團隊通過(guò)在生成器的特征圖上的位移修補損失來(lái)實(shí)現動(dòng)態(tài)監控,并在相同的特征空間中通過(guò)最近鄰搜索進(jìn)行點(diǎn)追蹤。

方法

值得注意的是,用戶(hù)可以通過(guò)添加mask的方式,來(lái)控制需要編輯的區域。

可以看到,當狗的頭部被mask時(shí),在編輯后的圖像中,只有頭部發(fā)生了移動(dòng),而其他區域則并未發(fā)生變化。但如果沒(méi)有mask的話(huà),整個(gè)狗的身體也會(huì )跟著(zhù)移動(dòng)。

這也顯示出,基于點(diǎn)的操作通常有多種可能的解決方案,而GAN會(huì )傾向于在其從訓練數據中學(xué)習的圖像流形中找到最近的解決方案。

因此,mask功能可以幫助減少歧義并保持某些區域固定。

mask的效果

在真實(shí)圖像的編輯中,團隊應用GAN反轉將其映射到StyleGAN的潛在空間,然后分別編輯姿勢、頭發(fā)、形狀和表情。

真實(shí)圖像的處理

到目前為止,團隊展示的都是基于「分布內」的編輯,也就是使用訓練數據集內的圖像來(lái)實(shí)現編輯。

但DragGAN實(shí)際上具有強大的泛化能力,可以創(chuàng )建出超出訓練圖像分布的圖像。比如,一個(gè)張得巨大的嘴,以及一個(gè)被極限放大的車(chē)輪。

在某些情況下,用戶(hù)可能希望始終保持圖像在訓練分布中,并防止這種超出分布的情況發(fā)生。實(shí)現這一目標的方法可以是對潛在代碼添加額外的正則化,但這并不是本文討論的重點(diǎn)。

泛化能力

比較分析

首先,與UserControllableLT相比,DragGAN能夠編輯從輸入圖像中檢測到的特征點(diǎn),并使其與從目標圖像中檢測到的特征點(diǎn)相匹配,而且誤差很小。

從下圖中可以看出,DragGAN正確地張開(kāi)了照片中人物的嘴,并調整了下巴的形狀來(lái)匹配目標的臉型,而UserControllableLT未能做到這一點(diǎn)。

臉部特征點(diǎn)編輯

在DragGAN與RAFT、PIPs和無(wú)追蹤的定性比較中,可以看得,DragGAN可以比基線(xiàn)更準確地跟蹤操作點(diǎn),進(jìn)而能夠產(chǎn)生更精確的編輯。

定性比較

而在移動(dòng)操作點(diǎn)(紅點(diǎn))到目標點(diǎn)(藍點(diǎn))的任務(wù)上,定性比較的結果顯示,DragGAN在各種數據集上都取得了比UserControllableLT更加自然和優(yōu)秀的效果。

定性比較

如表1所示,在不同的點(diǎn)數下,DragGAN都明顯優(yōu)于UserControllableLT。而且根據FID的得分,DragGAN還保留了更好的圖像質(zhì)量。

由于具有更強的跟蹤能力,DragGAN還實(shí)現了比RAFT和PIPs更精確的操縱。正如FID分數所顯示的,如果跟蹤不準確的話(huà),很可能會(huì )造成編輯過(guò)度,從而降低圖像質(zhì)量。

雖然UserControllableLT的速度更快,但DragGAN在很大程度上提升了這項任務(wù)的上限,在保持相對較快的運行時(shí)間的同時(shí),實(shí)現了更靠譜的編輯。

定量分析

結果討論

DragGAN是一種基于點(diǎn)的交互式圖像編輯方法,該方法利用預訓練的GAN來(lái)合成圖像。其中,這些合成圖像不僅精確地遵循了用戶(hù)的輸入,而且還能保持在真實(shí)圖像的流形上。

此外,與之前的方法相比,團隊提出的DragGAN還是一個(gè)通用框架,并不依賴(lài)于特定領(lǐng)域的建?;蜉o助網(wǎng)絡(luò )。

這是通過(guò)兩個(gè)新穎的組件來(lái)實(shí)現的,它們都是利用GAN的中間特征圖的辨別質(zhì)量,來(lái)生成像素精確的圖像形變和交互性能:

1. 一個(gè)優(yōu)化潛在代碼的方法,逐步將多個(gè)操作點(diǎn)移向目標位置

2. 一個(gè)點(diǎn)追蹤程序,真實(shí)地追蹤操作點(diǎn)的軌跡

總結來(lái)說(shuō),全新的DragGAN在基于GAN的編輯方面要優(yōu)于現有的技術(shù),并為使用生成式先驗的強大圖像編輯開(kāi)辟了新的方向。

至于未來(lái)的工作,團隊計劃將基于點(diǎn)的編輯擴展到3D生成模型。

模型局限

盡管具有一定的泛化能力,但DragGAN的編輯質(zhì)量仍受訓練數據多樣性的影響。

如下圖(a)所示,創(chuàng )建一個(gè)訓練分布外的人體姿勢,可能會(huì )生成錯誤的圖像

此外,如圖(b)(c)所示,在無(wú)紋理區域的操作點(diǎn)在追蹤時(shí)有時(shí)會(huì )有更多的漂移。

因此,團隊建議盡量去選擇紋理豐富的操作點(diǎn)。

作者介紹

論文一作Xingang Pan,即將上任南洋理工大學(xué)計算機科學(xué)與工程學(xué)院MMLab@NTU的助理教授(2023年6月)。

目前,他是馬克斯·普朗克計算機科學(xué)研究所的博士后研究員,由Christian Theobalt教授指導。

在此之前,他于2016年在清華大學(xué)獲得學(xué)士學(xué)位,并2021年在香港中文大學(xué)多媒體實(shí)驗室獲得博士學(xué)位,導師是湯曉鷗教授。

Lingjie Liu

Lingjie Liu是賓夕法尼亞大學(xué)計算機和信息科學(xué)系的Aravind K. Joshi助理教授,負責賓大計算機圖形實(shí)驗室,同時(shí)也是通用機器人、自動(dòng)化、傳感和感知(GRASP)實(shí)驗室的成員。

在此之前,她是馬克斯·普朗克計算機科學(xué)研究所的Lise Meitner博士后研究人員。并于2019年在香港大學(xué)獲得博士學(xué)位。

參考資料:https://vcai.mpi-inf.mpg.de/projects/DragGAN/

作者:新智元,來(lái)源:新智元,原文標題:《GAN逆襲歸來(lái)!清華校友論文引爆AI繪圖圈,一秒把大象P轉身,Diffusion黯然失色》

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: