韓國科學(xué)技術(shù)院(KAIST)人工智能研究所的三位研究人員開發(fā)了一種名為"鏈?zhǔn)阶兘?quot;(Chain-of-Zoom)的創(chuàng)新框架。該技術(shù)能夠利用現(xiàn)有的超分辨率模型生成極致放大的圖像,且無需進(jìn)行模型重新訓(xùn)練。

在這項(xiàng)發(fā)表于《arXiv》預(yù)印本平臺的研究中,Bryan Sangwoo Kim、Jeongsol Kim和Jong Chul Ye三位研究者將圖像放大過程分解為多個步驟,并在每個步驟中應(yīng)用現(xiàn)有超分辨率模型進(jìn)行漸進(jìn)式畫質(zhì)提升,最終實(shí)現(xiàn)分辨率的多級優(yōu)化。

研究團(tuán)隊(duì)首先指出,當(dāng)前主流的圖像分辨率提升框架多采用插值或回歸方法進(jìn)行放大,這往往會導(dǎo)致圖像模糊。為解決這一問題,他們開創(chuàng)性地采用了分步變焦技術(shù)——通過前后步驟的迭代優(yōu)化來實(shí)現(xiàn)畫質(zhì)提升。

由于該技術(shù)采用了多級處理鏈來提升分辨率,研究人員將其命名為"鏈?zhǔn)阶兘?quot;(CoZ)框架。

在每一級處理中,該框架都會調(diào)用現(xiàn)有的超分辨率(SR)模型啟動優(yōu)化流程。與此同時,視覺語言模型(VLM)會生成描述性提示詞,輔助SR模型完成圖像生成過程。最終輸出的就是原始圖像某個局部區(qū)域的放大版本。

該框架隨后會循環(huán)這一過程,在視覺語言模型生成的有效提示詞輔助下,不斷優(yōu)化放大圖像的分辨率,直至生成最終版本。為確保視覺語言模型生成的提示詞切實(shí)有效,研究團(tuán)隊(duì)?wèi)?yīng)用了強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行優(yōu)化。測試結(jié)果表明,該框架生成的圖像質(zhì)量超越了標(biāo)準(zhǔn)基準(zhǔn)測試的水平。

研究人員特別強(qiáng)調(diào),該框架無需重新訓(xùn)練就能提升圖像質(zhì)量,這使得它具有更好的通用性。但同時他們也提醒使用者必須謹(jǐn)慎對待該技術(shù)的應(yīng)用場景——這些放大后的圖像并非真實(shí)畫面,而是人工智能生成的產(chǎn)物。

舉例來說,如果用它來放大銀行搶劫案中逃逸車輛的牌照,系統(tǒng)可能會顯示出非常清晰的字母和數(shù)字,但這些內(nèi)容可能與真實(shí)車牌并不相符。

精選文章:

閱讀空間:當(dāng)代書店設(shè)計(jì)中商業(yè)與社區(qū)的平衡藝術(shù)

大作洗眼 | 2025 DIELINE最佳包裝、普京“懸空別墅”…全面性設(shè)計(jì)!

觀點(diǎn):社交媒體圍攻正在扼殺創(chuàng)意產(chǎn)業(yè)嗎?

微軟推出免費(fèi)AI視頻神器:基于Sora的Bing視頻創(chuàng)作工具震撼上線

人工智能工作悖論:威脅、變革,還是兩者兼而有之?