依賴神經(jīng)網(wǎng)絡(luò)從文本提示等輸入創(chuàng)建新圖像的AI圖像生成技術(shù),預(yù)計將在本年代末成為價值數(shù)十億美元的產(chǎn)業(yè)。以現(xiàn)有技術(shù)為例,若想生成朋友在火星插旗或義無反顧飛向黑洞的奇幻畫面,耗時可能不足一秒。

然而在實現(xiàn)這些功能前,圖像生成器通常需要在包含數(shù)百萬張配文圖像的海量數(shù)據(jù)集上進(jìn)行訓(xùn)練。這一過程往往需要消耗數(shù)周甚至數(shù)月時間,并占用巨大的計算資源。

但若存在完全不依賴生成器就能實現(xiàn)AI圖像生成的方法呢?今年夏天在溫哥華舉行的國際機器學(xué)習(xí)會議(ICML 2025)上,一篇研究論文提出了這種可能性。該論文已發(fā)布于arXiv預(yù)印本服務(wù)器,由MIT信息與決策系統(tǒng)實驗室研究生Lukas Lao Beyer領(lǐng)銜,聯(lián)合MIT計算機科學(xué)與人工智能實驗室博士后李天宏、Facebook AI研究院陳鑫磊等學(xué)者共同完成。

這項研究的起點是Lao Beyer對字節(jié)跳動與慕尼黑工業(yè)大學(xué)學(xué)者2024年6月論文的探索。該論文提出了一種稱為"一維標(biāo)記器"的視覺信息表征新方法——僅用32個稱為"標(biāo)記"的數(shù)字序列就能編碼256x256像素的圖像。傳統(tǒng)標(biāo)記器需要將圖像分解為16x16的標(biāo)記陣列,而新型一維標(biāo)記器不僅能以更少標(biāo)記實現(xiàn)高效編碼,每個標(biāo)記還能捕獲整幅圖像(而非局部區(qū)域)的信息。

"每個標(biāo)記實際上是由1和0組成的12位數(shù)字,相當(dāng)于約4000種可能性的抽象計算機語言。"論文合著者Kaiming He教授解釋道。通過系統(tǒng)性地替換標(biāo)記,團(tuán)隊發(fā)現(xiàn)單個標(biāo)記就能改變圖像分辨率、背景虛化或亮度。更驚人的是,存在控制物體姿態(tài)的標(biāo)記——例如調(diào)整標(biāo)記數(shù)值可使圖像中知更鳥的頭部方向發(fā)生改變。

這項發(fā)現(xiàn)催生了全新的圖像編輯方法。更重要的是,團(tuán)隊實現(xiàn)了無需生成器的圖像創(chuàng)建:僅依靠一維標(biāo)記器、解標(biāo)記器(解碼器)及現(xiàn)成的CLIP神經(jīng)網(wǎng)絡(luò)(用于評估圖像與文本匹配度),就能將紅熊貓圖像轉(zhuǎn)換為老虎,或從隨機標(biāo)記值起步生成符合文本描述的全新圖像。該方案同樣適用于圖像修復(fù)(inpainting)任務(wù),由于跳過了生成器訓(xùn)練環(huán)節(jié),可大幅降低計算成本。

"我們并未發(fā)明新組件,"He教授強調(diào),"但通過現(xiàn)有技術(shù)的創(chuàng)新組合,解鎖了前所未有的功能。"紐約大學(xué)計算機科學(xué)家Saining Xie評價道:"這項工作重新定義了標(biāo)記器的角色,證明圖像壓縮工具竟能獨立完成生成模型的任務(wù)。"普林斯頓大學(xué)劉莊認(rèn)為該方法"將圖像生成成本降低數(shù)倍"。

研究團(tuán)隊指出,該技術(shù)可拓展至自動駕駛等領(lǐng)域——用標(biāo)記編碼車輛行駛路線而非圖像信息。正如Lao Beyer所言:"這種極致壓縮技術(shù)能催生跨領(lǐng)域的驚人應(yīng)用。"Xie教授也認(rèn)為:"這項突破將開啟諸多令人興奮的應(yīng)用場景。"

精選文章:

谷歌Gemini 2.5新增"對話式圖像分割"功能

月租1999元的小米青年公寓火了!大廠如何從 “搶人”轉(zhuǎn)向“留人”?

拉斐爾·諾布雷的驚艷設(shè)計與插畫

從大廠到獨立:為何越來越多的創(chuàng)意人選擇單飛

與自然共同設(shè)計:社區(qū)如何成為城市生物多樣性的守護(hù)者