天天色成人-天天色成人网-天天色色色-天天色色网-久久99欧美-久久99青青久久99久久

【CVPR2024】阿里云人工智能平臺PAI圖像編輯算法論文入選CVPR2024

   2024-06-17 5341
核心提示:在阿里云人工智能平臺PAI算法團隊和華南理工大學的老師學生們一同的堅持和熱情下,將阿里云在圖像生成與編輯領域的先進理念得以通過學術論文和會議的形式,向業界傳遞和展現。
 近期,阿里云人工智能平臺PAI發表的圖像編輯算法論文在CVPR-2024上正式亮相發表。論文成果是阿里云與華南理工大學賈奎教授領銜的團隊共同研發。CVPR(計算機視覺與模式識別會議)是計算機視覺和模式識別領域的頂級國際會議,旨在展示最新的研究進展和技術成就,推動這一領域理論與應用的前沿進展,并通過精選提交的高水平學術論文和實踐工作,對學術界和工業界產生深遠的影響。此次入選標志著阿里云人工智能平臺PAI自主研發的圖像編輯算法達到了先進水平,贏得了國際學術界的認可。在阿里云人工智能平臺PAI算法團隊和華南理工大學的老師學生們一同的堅持和熱情下,將阿里云在圖像生成與編輯領域的先進理念得以通過學術論文和會議的形式,向業界傳遞和展現。

基于文本引導的圖像編輯任務允許用戶使用簡單的文字描述來指導修改一幅圖像,無需具備復雜的圖像編輯軟件或專業知識即可實現編輯效果。用戶可以通過輸入文本對圖像進行涉及顏色變更、物體添加或去除、風格轉換等多種編輯的操作。這種交互式的編輯方式大大降低了圖像編輯的門檻,使得創意表達更加便捷和個性化。

目前的一些先進圖像編輯方法,例如prompt-to-prompt(P2P),通過替換與目標編輯術語相對應的源提示中的交叉注意力圖來改變圖像的特定區域。而Plug-and-Play(PnP)策略則是先從注意力層提取原始圖像的空間特征和自注意力,再將它們注入到目標圖像的生成過程中。在這些技術中,注意力層對于控制圖像布局以及確立輸入提示與生成圖像之間的關聯起著至關重要的作用。但是,對注意力層的不恰當調整可能會帶來意外的編輯結果或者編輯失敗。例如,在交叉注意力層進行編輯時,真實圖像可能因此而失去預期效果,如嘗試將人類編輯成機器人或將汽車顏色變更為紅色的編輯嘗試可能不會成功。

 

 

圖1. 圖像編輯的失敗案例以及我們提出的方法成功編輯的結果

 

在我們的研究中,我們介紹了一種名為Free-prompt-Editing(FPE)的簡潔而高效的算法。FPE通過在去噪階段替換指定注意力層的自注意力圖進行圖像編輯,這一過程中解放了需要源提示的限制,這對實際的真實圖像編輯場景極有價值。總體來說,我們的研究促進了對穩定擴散(Stable Diffusion)中注意力圖的理解,并針對文本引導的圖像編輯(Text-Image-Editing,簡稱TIE)提供了切實可行的解決策略。圖2展示了FPE算法在合成圖像上實施編輯的具體過程。

 

 

圖 2:Free-prompt-Editing 在對合成圖像進行編輯的過程示意圖

 

Free-prompt-Editing偽代碼如下:

 

 

圖 3:Free-prompt-Editing 在合成圖像編輯和真實圖像編輯場景下的偽代碼

 

圖4展示了FPE的編輯結果,它成功地轉換了原始圖像的各種屬性、風格、場景和類別。

 

 

圖 4:Free-prompt-Editing 編輯結果示例

 

圖5呈現了FPE技術應用于基于穩定擴散算法的其他定制模型中的編輯效果。觀察這些成果,我們可以發現FPE技術能夠高效地適用于各種擴散模型。它不僅成功實現了性別轉換,把女孩變為男孩,還能夠調整人物的年齡,使男孩呈現出10歲或80歲的特征;此外,它還能修改發型、變換頭發色彩、替換背景乃至進行類別上的轉變。

 

 

圖 5:Free-prompt-Editing 編輯結果示例

 

圖6對比展示了FPE與其他一些SOTA圖像編輯技術的效果。無論是對真實照片還是合成圖像,FPE均展現出了高效的編輯能力。在所有的案例中,FPE都能夠實現與描述提示高度一致的精細編輯,同時最大限度地保留了原圖的結構細節。

 

 

圖 6:Free-prompt-Editing 與其他編輯方法的對比

 

為了更好地服務開源社區,這一算法的源代碼即將貢獻在自然語言處理算法框架EasyNLP中,歡迎各界從業人員和研究者使用。

阿里云人工智能平臺PAI長期招聘正式員工/實習生。團隊專注于深度學習算法研究與應用,重點聚焦大語言模型和多模態AIGC大模型的應用算法研究和應用。簡歷投遞和咨詢:chengyu.wcy@alibaba-inc.com。

論文信息

論文名字:Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing

論文作者:劉冰雁、汪誠愚、曹庭鋒、賈奎、黃俊

論文pdf鏈接:https://arxiv.org/abs/2403.03431

 

 
分享到: 0
收藏 0
 
更多>同類資訊
免責申明
推薦資訊
點擊排行
最新資訊更多>
最新供應更多>
網站首頁  |  聯系方式  |  關于我們  |  問題解析  |  版權隱私  |  使用協議  |  網站地圖  |  排名推廣  |  廣告服務  |  積分換禮  |  網站留言  |  RSS訂閱  |  違規舉報  |  粵ICP備1207862號

中國智能化網(zgznh®)--引領工業智能化產業發展 共享智能化+優質平臺

版權所有:深圳市智控網絡有限公司 學術指導:深圳市智能化學會

粵ICP備12078626號

深公網安備案證字第 4403101901094 號 | 粵公網安備 44030702001206號