近期,基于文本的圖像生成模型已能根據(jù)自然語言描述自動創(chuàng)建高分辨率、高質(zhì)量的圖像。然而,當(dāng)輸入"創(chuàng)意"這類抽象文本時,即便是Stable Diffusion這樣的典型模型,其生成真正具有創(chuàng)造力圖像的能力仍顯不足。
韓國科學(xué)技術(shù)院(KAIST)的研究人員開發(fā)了一項新技術(shù),無需額外訓(xùn)練即可提升Stable Diffusion等文本生成圖像模型的創(chuàng)造力,使AI能夠設(shè)計出突破常規(guī)的創(chuàng)意椅子造型。
KAIST金在哲人工智能研究生院的崔宰碩教授團隊與NAVER AI實驗室合作,開發(fā)了這項無需額外訓(xùn)練即可增強AI生成模型創(chuàng)造力的技術(shù)。該研究已發(fā)布于arXiv預(yù)印本服務(wù)器論文鏈接,代碼開源在GitHub。
崔教授團隊通過放大文本生成圖像模型內(nèi)部特征圖的技術(shù)來增強創(chuàng)意生成能力,同時發(fā)現(xiàn)模型淺層模塊對創(chuàng)意生成起關(guān)鍵作用。他們證實:將特征圖轉(zhuǎn)換至頻域后,若放大高頻區(qū)域數(shù)值會導(dǎo)致噪點或色彩碎片化。
因此,研究團隊證明放大淺層模塊的低頻區(qū)域能有效提升創(chuàng)意生成效果。
研究團隊將原創(chuàng)性和實用性定義為創(chuàng)造力的兩大核心要素,提出了一種能自動選擇生成模型各模塊最佳放大值的算法。通過該算法,適當(dāng)放大預(yù)訓(xùn)練Stable Diffusion模型的內(nèi)部特征圖,無需額外分類數(shù)據(jù)或訓(xùn)練即可增強創(chuàng)意生成能力。
研究團隊通過多維度指標(biāo)定量證明,其算法生成的圖像比現(xiàn)有模型更具新穎性,同時未顯著犧牲實用性。特別是在SDXL-Turbo模型(為提升Stable Diffusion XL生成速度開發(fā)的版本)中,該技術(shù)有效緩解了模式崩潰問題,顯著提升了圖像多樣性。用戶研究表明,相比現(xiàn)有方法,人類評估者也認(rèn)為其新穎性與實用性的平衡度有顯著改善。
論文共同第一作者、KAIST博士生韓知妍和權(quán)多熙表示:"這是首個無需重新訓(xùn)練或微調(diào)即可增強生成模型創(chuàng)意能力的方法。我們證明通過特征圖操控,能激發(fā)已訓(xùn)練AI生成模型中潛在的創(chuàng)造力。"
她們補充道:"這項研究使得僅用文本就能從現(xiàn)有訓(xùn)練模型中輕松生成創(chuàng)意圖像。預(yù)計將為創(chuàng)意產(chǎn)品設(shè)計等領(lǐng)域帶來新靈感,推動AI模型在創(chuàng)意生態(tài)中的實用化應(yīng)用。"
該研究由KAIST金在哲人工智能研究生院的博士生韓知妍和權(quán)多熙共同完成,已于6月16日在計算機視覺與模式識別國際會議(CVPR)上發(fā)表。
精選文章:
巴黎大皇宮經(jīng)過沙蒂永建筑事務(wù)所四年整修后重新開放
優(yōu)衣庫和Labubu聯(lián)名,設(shè)計好萌!