
據悉,在這一項目中,研究人員結合了機器學習、自動文本選擇和自然語音合成等多項 AI 技術,實現(xiàn)了電子書自動轉化為語音的全流程。
經過查詢得知,項目團隊首先開發(fā)出一種算法,可以自動分析電子書的結構,區(qū)分正文和非關鍵部分的頁碼、表格等,然后使用 WaveNet、Tacotron 和 FastSpeech 等文本轉語音技術,生成類似真人的自然朗讀語音。此外,該團隊還使系統(tǒng)能夠辨別書中敘述者、對話和不同角色,并相應調整語音,實現(xiàn)故事情節(jié)的語音表達。
微軟表示,此次計劃已收集整理了超過 35000 小時的有聲書語音數(shù)據,涵蓋了各類經典文學、戲劇、傳記等作品,這些語音數(shù)據都將以開源方式免費提供。用戶也可以用自己錄制的少量語音,生成“用自己的聲音朗讀整