依賴神經(jīng)網(wǎng)絡(luò)從文本提示等輸入創(chuàng)建新圖像的AI圖像生成技術(shù),預(yù)計(jì)將在本年代末成為價(jià)值數(shù)十億美元的產(chǎn)業(yè)。以現(xiàn)有技術(shù)為例,若想生成朋友在火星插旗或義無反顧飛向黑洞的奇幻畫面,耗時(shí)可能不足一秒。

然而在實(shí)現(xiàn)這些功能前,圖像生成器通常需要在包含數(shù)百萬張配文圖像的海量數(shù)據(jù)集上進(jìn)行訓(xùn)練。這一過程往往需要消耗數(shù)周甚至數(shù)月時(shí)間,并占用巨大的計(jì)算資源。

但若存在完全不依賴生成器就能實(shí)現(xiàn)AI圖像生成的方法呢?今年夏天在溫哥華舉行的國際機(jī)器學(xué)習(xí)會(huì)議(ICML 2025)上,一篇研究論文提出了這種可能性。該論文已發(fā)布于arXiv預(yù)印本服務(wù)器,由MIT信息與決策系統(tǒng)實(shí)驗(yàn)室研究生Lukas Lao Beyer領(lǐng)銜,聯(lián)合MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室博士后李天宏、Facebook AI研究院陳鑫磊等學(xué)者共同完成。

這項(xiàng)研究的起點(diǎn)是Lao Beyer對(duì)字節(jié)跳動(dòng)與慕尼黑工業(yè)大學(xué)學(xué)者2024年6月論文的探索。該論文提出了一種稱為"一維標(biāo)記器"的視覺信息表征新方法——僅用32個(gè)稱為"標(biāo)記"的數(shù)字序列就能編碼256x256像素的圖像。傳統(tǒng)標(biāo)記器需要將圖像分解為16x16的標(biāo)記陣列,而新型一維標(biāo)記器不僅能以更少標(biāo)記實(shí)現(xiàn)高效編碼,每個(gè)標(biāo)記還能捕獲整幅圖像(而非局部區(qū)域)的信息。

"每個(gè)標(biāo)記實(shí)際上是由1和0組成的12位數(shù)字,相當(dāng)于約4000種可能性的抽象計(jì)算機(jī)語言。"論文合著者Kaiming He教授解釋道。通過系統(tǒng)性地替換標(biāo)記,團(tuán)隊(duì)發(fā)現(xiàn)單個(gè)標(biāo)記就能改變圖像分辨率、背景虛化或亮度。更驚人的是,存在控制物體姿態(tài)的標(biāo)記——例如調(diào)整標(biāo)記數(shù)值可使圖像中知更鳥的頭部方向發(fā)生改變。

這項(xiàng)發(fā)現(xiàn)催生了全新的圖像編輯方法。更重要的是,團(tuán)隊(duì)實(shí)現(xiàn)了無需生成器的圖像創(chuàng)建:僅依靠一維標(biāo)記器、解標(biāo)記器(解碼器)及現(xiàn)成的CLIP神經(jīng)網(wǎng)絡(luò)(用于評(píng)估圖像與文本匹配度),就能將紅熊貓圖像轉(zhuǎn)換為老虎,或從隨機(jī)標(biāo)記值起步生成符合文本描述的全新圖像。該方案同樣適用于圖像修復(fù)(inpainting)任務(wù),由于跳過了生成器訓(xùn)練環(huán)節(jié),可大幅降低計(jì)算成本。

"我們并未發(fā)明新組件,"He教授強(qiáng)調(diào),"但通過現(xiàn)有技術(shù)的創(chuàng)新組合,解鎖了前所未有的功能。"紐約大學(xué)計(jì)算機(jī)科學(xué)家Saining Xie評(píng)價(jià)道:"這項(xiàng)工作重新定義了標(biāo)記器的角色,證明圖像壓縮工具竟能獨(dú)立完成生成模型的任務(wù)。"普林斯頓大學(xué)劉莊認(rèn)為該方法"將圖像生成成本降低數(shù)倍"。

研究團(tuán)隊(duì)指出,該技術(shù)可拓展至自動(dòng)駕駛等領(lǐng)域——用標(biāo)記編碼車輛行駛路線而非圖像信息。正如Lao Beyer所言:"這種極致壓縮技術(shù)能催生跨領(lǐng)域的驚人應(yīng)用。"Xie教授也認(rèn)為:"這項(xiàng)突破將開啟諸多令人興奮的應(yīng)用場景。"

精選文章:

谷歌Gemini 2.5新增"對(duì)話式圖像分割"功能

月租1999元的小米青年公寓火了!大廠如何從 “搶人”轉(zhuǎn)向“留人”?

拉斐爾·諾布雷的驚艷設(shè)計(jì)與插畫

從大廠到獨(dú)立:為何越來越多的創(chuàng)意人選擇單飛

與自然共同設(shè)計(jì):社區(qū)如何成為城市生物多樣性的守護(hù)者