什麼是語音合成?

語音合成、文字轉語音(text-to-speech,TTS)是一種應用科技,將大量資訊蒐集後,先分類再合成,應用在生活中各種地方。

ex:GPS導航、Siri智慧互動、Google翻譯、智慧機器人

語音合成與錄音的關聯

語音合成的關鍵在於語料庫,必須透過’’錄音工程’’將大量的語音資料蒐集成為語料庫,後續可再進一部針對語音資料做切割與分析,開發成產品。

瓦器目前執行過的語音合成專案

☊手機智慧小幫手(Apple、Samsung、內地自有廠牌)

☊ 語音字典

☊GPS導航

☊台南市政府第二官方語言錄製 

瓦器的工程背景

美商瓦器MSC集團旗下有瓦器錄音室瓦器聲紋鑑識實驗室Shihor StudioDiamond Cut亞洲代理等4個品牌,皆以聲音工程與聲學的研究為主要營運項目。

目前瓦器錄音室於全台共有四間錄音室、一間實驗室及台南營運辦事處,提供達到錄製語音合成專案的規格與等級。

除了提供錄音與製作服務,瓦器錄音室有鑑於國內專精且能提供相關聲音鑑識技術服務的組織單位極其有限,特別自2013年起正式對一般外界提供相關的語音分析、語音鑑定、語音比對等服務。

2015年7月瓦器聲紋鑑識實驗室籌設以後,由美國史丹福大學前中研院原分所博士帶領,於顧問、鑑定、分析、比對、基礎研究與開發等相關業務也一併移交瓦器聲紋鑑識實驗室主導,以持續提升研究能量與服務品質。

www.muscene-studio.com

www.voice-forensics.com

本次演講內容與目標

目標

希望幫助大家了解相關知識

以便做出 The LJ Speech Dataset 水準以上的語音合成錄音資料集。

 對象

本次演講針對錄音的部份,錄音時有製作人、配音員和錄音師三個角色,我們演講希望是給製作人和配音員的,讓這兩個角色知道要準備什麼。

製作人和配音員能知道如何準備他們的工作。像是:製作人要如何找配音員,配音員要怎麼事前準備。製作人要提出哪些需求給沒有語音合成專業的錄音師知道。讓製作人有基本的sense可以辨別錄音的狀況有沒有做到語音合成需要的標準,讓製作人可以掌握錄音的品質進度。

預計大綱

配音員:配音員如何挑選、配音員本人注意事項,錄音契約注意事項…。

品質控制:聲音要哪一種品質,訊噪比、基頻…。

如何和錄音師提出需求、錄音設備的基本要求。

製作人、配音員錄音事前準備

錄音稿內容設計,排版

錄音過程注意事項:換氣聲,重唸…

錄音後注意事項

  語音合成錄音室十分要求一致性,但人畢竟不是機器,為保持良好狀態,在趕進度的同時也要適當的休息,讓聲音可以維持設定的品質。

  在這樣的情況下,錄音速度勢必會需要拉長戰線,因此為保障三方工作,需要有紙本合約,訂定具體的計畫與目標,讓工作不致拖沓。

   事前準備完成後,關鍵在於第一次的錄音,往往實際執行後許多隱藏的問題才會浮現。


如何開始一個新的語音合成專案呢?

第一步
配音員
  • 音色的穩定與一致性最為重要
  • 對該語言的專業度
  • 咬字是基本
第二步
文本文稿
  • 版權授權、文本覆蓋率、語庫的總長度
  • 包含可能出現的句型&使用情況
第三步
製作人
  • 對該語言的研究深入
  • 足夠的判斷力來指導配音員
  • 具體的表達能力掌握錄音效率
第四步
錄音室
  • 錄音室的空間環境
  • 錄音師對設備的性能掌握
  • 高度集中與效率

正式錄音需要

錄音專案的規格

-->設定48/44.1khz⌒ 24/16bit,Mono

應由後期工程人員清楚訂定

☊錄音室環境空間底噪-65db、RT60

☊對比句 校正每次錄音的狀態,保持一致性

-->對於配音員的音色、語速、咬字

以及音調與情緒訂出清楚明確的標準,以此為對比

☊錄音設備擺放方式

-->麥克風擺放角度、高度、與配音員的距離

☊錄音師應當紀錄下各樣的參數設定

-->麥克風前級的參數Gain數值,確保聲音動態穩定正常

***EGG聲門波採樣機器***

☊錄製聲音的規格

☊ 每句話的開始跟結束要有0.5ms~1ms的乾淨環境音,不得有呼吸音

☊聲音的動態範圍在-2~-9db

☊ 唇齒音&噴Mic聲

☊ 錄音的方式:逐句錄製或者分段錄製

☊檔案輸出命名及編號

☊完成大量的語料庫後,要進行後續內容的校對,必要時需要補錄,正確的內容則進入工程切割階段,分為聲母韻母,音調辨別(例如台語有八個音調,粵語九個)都十分複雜,甚至還有變調、一字多音、一音多字的特殊情況,這些都要於錄音前考量進錄製的文本內容中,並於後期切割時一一校對無誤。

☊音調較多針對個別字,當談論到詞、句等情況,則要分析韻律與磁性。ex:9單獨唸時,是三聲,99也沒有問題,但999就要將第一個九轉為二聲。


語音合成與生活息息相關,我們生活的每一天都在使用語言與人溝通,錄製語音資料庫是一份十分耗費心力的工作,不僅要有該語系語言的背景與專業,更要有對其高度的熱忱才有辦法堅持下去,但是完成後會是一生的成就感!

Follow Us