TTS(Text To Speech)語音合成計畫開發與文本錄音採樣

TTS是一現代常見的科技應用,大量的語音素材如何透過人工智慧、AI學習,成為我們生活的助手呢? 首先,在錄製TTS語音資料庫時,需要明確這份語庫的基本用途與性質,如此才能定出語音採樣的規格與錄製方式。

一般我們最孰悉的TTS應用大多是手機的語音助理,ex : Siri、Google小助手等等。瓦器團隊(錄音室部門&聲紋實驗室部門)參與過的專案開發諸如:交通語音導航系統、國際各大廠手機語音助理系統、互動式居家機器人問答系統、語言學/學術語音資料庫採樣、聲門波(EGG)、聲紋樣本採樣與研究;基本上TTS這個技術與其AI引擎可以運用在各種互動式的產品上,讓原先冰冷的機器擁有全新鮮活的形象,來提升使用者的便利性,當然也可以為企業、公司創造出全新的商業模式與相關應用場景。

如果您的團隊正打算開展一個新的TTS計畫,但沒有相關的執行經驗,那麼非常建議您與瓦器團隊聯繫諮詢相關專業,讓您立即對TTS語音採樣(聲門波EGG採樣)有一個概括的了解,也能開始評估相關計畫所需所需投注的資源!

➤ 光是台灣就號稱有三千家錄音室/音樂工作室,在眾多的選擇中,要如何辨別哪一家才符合您的需求呢?

依照瓦器錄音棚旗下聲紋實驗室所提供的相關資訊,我們統整出TTS計畫需要的幾個關鍵參數、角色與注意事項,其中包含了錄音室空間聲學(低頻駐波殘存量、環境空間底噪、空間隔音係數、RT60等)、專業聲音工程師、錄音助理、職業發音人、語言學專家與PM(專案經理)、錄音介面ADDA的THD值、麥克風的Frequency Response與Sensitivity、Cable Total Harmonic Distortion等。

老實說,要成為一家軟、硬體各項規格都符合國際大廠TTS採樣標準的錄音棚並不容易,基本上要以科學聲響實驗室等級來作要求了,而坊間傳統商業錄音室的建造方式通常不符合該採樣規範!

➤ 關於TTS採樣的靈魂人物:配音員(發音人、聲優)

靈魂人物通常也就是大家第一印象且最容易被記住的’’聲音’’。

因此他/她的聲音一定要符合產品或品牌的定位、形象和質感。"悅耳"不是唯一的考量,從語言學的角度出發,區域口音、語言專業度、音色、咬字、穩定度、耐聽度、聲門波震顫訊噪(EGG Noise)等等都需納入考量。音色整體最好還要有親切真誠的感覺,好的發音人能讓您的計畫進行得更加順暢。

➤ 關於語言學家 :

語言學家擔任了指導、文本設計與定義樣本質量準則等關鍵前提的重責大任。從事前的語言學基礎研究、文本蒐集到錄音採樣的過程,語言學家要非常嚴謹的把關詞句內容的發音咬字、語氣、力度等參數之正確性,其本身也要足夠了解語言背後的文化風俗與慣用詞語,並以他對該語言應用上的透徹了解去盡力完善語料庫、文本採樣的覆蓋率。

➤ 關於PM(Project Manager) :

TTS錄音從文本份量評估、錄音時程進度、經費規劃、後期校對、切音、標註、AI引擎導入測試至最終文本錄音採樣計畫結案,除了過程中需投入各種不同領域的專業人才外,還需要有通盤掌握全局的項目/計畫主持人,以便於橫向與縱向的溝通管理與來回試錯、問題排除。

For example, 一般來說,除了用文本字數、句數定義TTS語庫的份量,我們通常還會以總時長來表示語庫的大小(總長幾個小時的語庫),平均2,000句的文本,約30,000字,實際錄音時間約25個小時,但是完成後的文本長度大約只有3~4個小時長(視文本內容種類計算方式略有不同)。

在進行這樣一個多人參與的計畫時,計畫主持人要掌握每個人的工作執掌都被確實的執行,讓多方人員得以順利同步運作,如此,才有可能在表定的時間內完成"可應用"的TTS產品開發計畫。

當語言文本內容錄製完成以後,接著需要後期質檢人員進行最後的文本與音頻檔案的校對、除錯、勘誤以及羅列需補錄的文本編號 ; 有時候為了文本的覆蓋率,後續還會進行多次的內容追加補充、補錄採樣,基本上就是一個反覆完善語庫與語言文本覆蓋率的工作階段。

''錄音棚/聲響實驗室的採樣''在TTS計畫的各個環節中位處''中期階段''。

前期規劃要做市場/語言/文化調查與語言學基礎研究的準備,中期由專業錄音室與其聲音工程師、發音人、語言學專家監製、PM、校對、切音後製加工等齊力完成錄音採樣與語音數據庫的建立階段,後期則需要大量的程式編程人員、AI工程師等,進行TTS引擎的開發測試,最大化的開創該語庫的多元應用性與準確辨識率。

從錄音室暨聲紋實驗室的角度來看TTS語料採樣計畫,瓦器團隊認為,錄音室是更多專注在語音品質、聲音音值與音頻檔案的科學參數上,同時也希望我們的全方位經驗與實驗室科研團隊能提供給我們的客戶與合作夥伴未來更多的可能性,降低該TTS計畫的風險與潛在隱性成本。

美商瓦器錄音棚的聲音工程師與瓦器聲紋實驗室科研人員有著大量TTS專案的錄音、採樣、研究、PM、技轉經驗,同時擁有許多不同類型、不同公司、多家國際大廠的TTS產品開發顧問之歷練,相信能極大化我們亞洲地區TTS語料採樣客戶的產品品質與其全球競爭力。

我們十分樂意為您規劃專屬的TTS語音採樣計畫、文本設計、語言學基礎研究與分析,您可以來信洽詢或者留言、來電提出您的規劃與需求;我們將會從產品開發面與聲音技術層面為您評估,往後也將繼續偕同子公司瓦器聲紋鑑識實驗室共同提供相關的專業資訊與開發經驗。

關於聲紋分析、傅立葉轉換、語言學統計、聲學心理學、語言心理學等相關專業請參閱美商瓦器錄音室旗下附設之聲紋鑑識實驗室 : www.voice-forensics.com

Follow Us