在對話式AI領域,創造兼具人性化與多樣性的語音始終是技術難點。人們渴望聽到與自己相似的自然聲音,而非千篇一律的"播音腔"。

初創公司Rime推出的Arcana文本轉語音(TTS)模型正突破這一瓶頸。僅需輸入簡單的特征描述,該系統就能即時生成不同性別、年齡、族裔和語言的"無限"語音變體。目前該技術已為達美樂、Wingstop等品牌帶來15%的銷售增長。

"高質量的擬真語音只是基礎,"Rime CEO莉莉·克利福德表示,"真正的突破在于能沿人口統計學維度創造無限變化的語音庫。"

會"表演人性"的語音模型

Rime的多模態自回歸TTS模型基于真實自然對話訓練(非專業配音)。用戶只需輸入如"30歲加州軟件行業女性"或"澳大利亞男性"等文本提示,即可獲得獨特語音。

"每次生成都是全新聲音,"克利福德強調。專為高并發商業場景設計的Mist v2版本,讓企業能定制符合業務需求的語音形象。系統還提供8款預設語音角色:

盧娜(Z世代樂觀女性)

奧利恩(非裔開朗中年男性)

埃斯特(華裔溫柔長者)等

該模型不僅能切換語言,還可實現耳語、嘲諷等語氣,甚至能通過<笑>標簽插入從輕笑到大笑的真實笑聲。技術白皮書指出:"它能根據上下文推斷情緒,自然地說'呃'等口頭禪,這些涌現行為我們仍在探索中。"

捕捉真實對話的奧秘

Arcana的三大訓練階段:

1基于開源大語言模型(LLM)預訓練,學習通用語言聲學模式

2使用海量專有數據集進行監督微調

3篩選最優說話人樣本進行針對性優化

訓練數據涵蓋社會語言學特征(階級、性別等背景)、個人語言習慣及副語言線索(語調、停頓等)。公司甚至在舊金山地下室自建錄音室,通過Craigslist招募普通人錄制自然對話而非劇本朗讀,最終實現98-100%的準確率。

"如果只用專業配音,永遠達不到這種親密度,"克利福德揭秘道,"我們的核心競爭力就在于這些真實樣本。"

創造定制聲音的"個性化引擎"

Rime開發了A/B測試工具"個性化引擎",通過API反饋數據分析最佳語音方案。不同行業成功標準各異——餐飲業可能是追加薯條或雞翅的推薦成功率。數據顯示,使用Rime后客戶與AI交談意愿提升4倍,20%通話結束時會向機器人道謝。

目前該系統每月處理近1億通電話,"撥打達美樂或Wingstop時,80-90%概率聽到Rime語音。"克利福德透露。未來公司將重點發展本地化部署以降低延遲,預計2025年底90%業務將轉為本地運行。

"當客戶說'不需要轉人工'時,我們知道革命正在發生。"克利福德總結道。這項技術證明,當AI語音足夠人性化,商業轉化便水到渠成。

精選文章:

櫥窗藝術的復興:為何實體展示依然不可替代

"它重新定義了汽車品牌的角色":CUPRA跨界時尚設計的顛覆之路

突破常規:MVRDV以錯動體塊打造臺北垂直拼圖住宅

Sergio Membrillas 談保持真實的藝術:插畫、演變以及在創作過程中尋找樂趣

樂高新園區將打造全球最大樂高圖書館 采用員工主導設計理念