輝達（NVIDIA）美國時間25日發表全新人工智慧（AI）研究成果Fugatto，只要使用文字就能控制音訊輸出，並可以將任何文字提示轉換為音訊，也能根據文字提示創作音樂片段、從現有歌曲中增減樂器、改變聲音口音或情感。

輝達發布新聞稿說明，Fugatto是Foundational Generative Audio Transformer Opus 1的縮寫，可使用文字與音訊檔案的任何組合，產生或轉換描述的音樂、語音與聲音。

輝達應用音訊研究部門經理巴耶（Rafael Valle）表示，「我們希望創造一個能夠像人類一樣理解和生成聲音的模型」，Fugatto是邁向未來的第一步。

輝達指出，音樂製作人可以使用Fugatto快速製作聲音的原型或編輯歌曲構想，嘗試各種風格、聲音和樂器，也能加入效果並提升現有曲目整體音訊品質。

此外，輝達表示，廣告公司可以運用Fugatto，針對現有廣告內容的配音，套用不同口音和情感。語言學習工具可以變得個人化，例如線上課程能使用家人或朋友的聲音講授。

隨著人工智能技術的迅速發展，語音模擬技術正逐漸改變我們與數位世界互動的方式。集仕多公司順應這股潮流，推出了一項創新的模擬人聲服務，讓客戶能夠用自己的聲音創造無限可能。

集仕多這項服務的核心功能是基於尖端的語音合成技術，只需提供一段錄音樣本以及文字腳本，系統就能以高度擬真的方式，用客戶的聲音將內容完整地表達出來。無論是用於企業廣告、教育課程解說、語音導航，還是個人品牌經營，這項服務都能大幅節省錄音時間與人力成本。

如何運作？

聲音樣本錄製 客戶需提供一段清晰的聲音錄音（通常為30分鐘至1小時），集仕多用以建立專屬的語音模型。這些錄音樣本應包含多種語調與語速，以確保模型能處理不同風格的腳本。
腳本提交 用戶只需將希望模擬的文字腳本提交到系統中，無需額外錄音。
語音合成輸出 系統會快速生成擬真的音頻，精確地模擬原聲主人的語氣、語調及韻律。

服務特色

「我們特別引以為傲的模型功能之一是我們所說的酪梨椅，」Valle 說，指的是用於成像的生成人工智慧模型創建的新穎視覺效果。

例如，Fugatto 可以發出喇叭聲或薩克斯風喵叫聲。無論使用者可以描述什麼，模型都可以創建。

透過微調和少量的歌唱數據，研究人員發現它可以處理未經預先訓練的任務，例如根據文字提示產生高品質的歌聲。

多項功能增加了 Fugatto 的新穎性。

在推理過程中，該模型使用稱為 ComposableART 的技術來組合僅在訓練期間單獨看到的指令。例如，提示的組合可以要求用法國口音說出帶有悲傷感覺的文字。

此模型在指令之間進行插值的能力使用戶能夠對文字指令進行細粒度控制，在本例中是重音或悲傷的程度。

「我想讓使用者以主觀或藝術的方式組合屬性，選擇他們對每個屬性的重視程度，」設計該模型這些方面的人工智慧研究員 Rohan Badlani 說。

「在我的測試中，結果常常令人驚訝，讓我覺得自己有點像藝術家，儘管我是一名電腦科學家，」擁有史丹佛大學人工智慧電腦科學碩士學位的巴德拉尼說。

該模型還產生隨時間變化的聲音，他將這項功能稱為時間插值。例如，它可以產生暴風雨穿過雷聲逐漸增強的區域的聲音，然後逐漸消失到遠處。它還使用戶能夠對音景的演變進行精細控制。

另外，與大多數模型不同，大多數模型只能重新創建他們所接觸過的訓練數據，Fugatto 允許用戶創建以前從未見過的音景，例如雷暴逐漸進入黎明，伴隨著鳥兒的歌聲。