首頁>>廠商>>語音識別與合成>>科大訊飛

科大訊飛InterPhonic 3.0語音合成系統(tǒng)新特性預覽

2004/01/12

  領先的專業(yè)語音技術提供商-科大訊飛日前宣布其新一代重量級語音合成系統(tǒng)InterPhonic 3.0將于2004年第一季度推出。

  科大訊飛每一代語音合成系統(tǒng)的推出都標志著中文語音合成技術產(chǎn)品的一個全新里程碑,在效果表現(xiàn)和功能特性上的持續(xù)推進也得到了眾多客戶的充分肯定。InterPhonic 3.0延續(xù)了科大訊飛的技術產(chǎn)品基本路線與原則,即基于對語音合成技術發(fā)展的深入思考、穩(wěn)健把握和對用戶需求的廣泛收集與詳細分析,將以全新的面貌展現(xiàn)在合作伙伴與客戶面前。

  現(xiàn)在我們已經(jīng)可以預覽InterPhonic 3.0的一些重要新特性:

1.全新風格的女聲音庫,并支持多音庫管理和運行時自由切換;
  隨著語音技術的迅速發(fā)展,應用也隨之不斷深入,語音合成技術正日益在更廣闊的范圍內體現(xiàn)出其獨特的優(yōu)勢,已由簡單信息發(fā)布迅速向更加豐富的信息服務內容擴展。用戶對電話信道上的語音效果提出了新的要求,要求更加人性化,更加親切自然。基于運營商和集成商的新要求,并調查了最終用戶的反饋意見,科大訊飛確定了新一代合成系統(tǒng)的發(fā)音風格,制作推出了新的女聲音庫。在制作新的音庫時,對錄音語料的選取上充分考慮了新聞、財經(jīng)、電信等行業(yè)的內容,使新的音庫能適合于更加廣泛的應用范圍。新的女聲音庫,由專業(yè)播音員錄制,音質清脆甜美,節(jié)奏活潑自然,更加符合人性化合成語音的要求。

  除支持全新風格的女聲音庫外,InterPhonic 3.0語音合成系統(tǒng)也同時支持原有的語調平穩(wěn),語氣正式的女聲音庫。InterPhonic 3.0允許客戶選擇安裝兩種音庫中的任意一個,或者是同時安裝兩個音庫。并且提供了這兩種音庫自由切換的功能。客戶可以在系統(tǒng)運行的情況下,通過參數(shù)設置切換合成服務的發(fā)音人。這樣客戶可以根據(jù)業(yè)務的變化,選擇更加適合應用需要的發(fā)音人,而使整個語音應用能提供給用戶更加自然的感受。

2.中文合成技術和中英文混讀合成技術方面都有新的突破;
  科大訊飛在中文語音合成的研究領域一直走在業(yè)界的最前列,InterPhonic 3.0合成系統(tǒng)發(fā)布版本中,將基礎研究的重要技術成果成功轉化到產(chǎn)品中,包含了在中文合成技術和中英文混讀合成技術方面最新的成果。InterPhonic 3.0采用改進的單元挑選算法,并增加了備選語音單元的數(shù)量,使合成系統(tǒng)能更加準確選擇滿足實際應用環(huán)境的語音單元,不僅使合成語音更加自然,而且使系統(tǒng)在更大的應用范圍下也能保證合成效果的穩(wěn)定性。采用新的韻律預測算法,減少了合成語音中韻律跳躍的現(xiàn)象,保證合成效果更加的流暢。InterPhonic 3.0還采用了新的語音拼接的算法,解決了協(xié)同發(fā)音和單元銜接的問題,使合成語音更加的清晰。

3.在中文文本分析和處理的多個方面都有顯著的改進;
  要正確的進行語音合成,必須要對輸入的文本進行正確分析和處理,這個問題不僅牽涉到對文本進行語法層面的分析,還牽涉到對文本語意層面的理解,即自然語言理解層面,一直是研究領域的難題。科大訊飛的基礎研究部門在文本分析領域的長期積累和不懈創(chuàng)新,保證了語音合成系統(tǒng)的文本分析能力在歷次評測中一向都是最領先的,在實際應用中也得到了廣大客戶的一致認可。

  在分析了不同應用領域的文本特征之后,采用了統(tǒng)計和規(guī)則相結合的方法來進行中文信息的分析處理。收集了大量與客戶的業(yè)務領域相關的文本和實際應用中需要合成的文本信息,在進行統(tǒng)計分析之后,進一步優(yōu)化了統(tǒng)計模型和數(shù)據(jù)庫,并且增加了大量的處理規(guī)則,提升了文本中詞組的識別和特殊符號的處理的準確性。通過統(tǒng)計和規(guī)則的結合,系統(tǒng)既保證了對大量文本分析處理的正確性,也保證在一些特殊語言環(huán)境下分析處理的正確性。

4.支持定制資源包和行業(yè)專用版;
  InterPhonic CE 2.0開始支持以定制資源庫的方式,提供針對具體應用領域的合成效果更加優(yōu)化的系統(tǒng)。經(jīng)多一年時間與客戶的交流和資源的制作,科大訊飛已經(jīng)可以提供證券、氣象、保險、電力等行業(yè)的定制資源包。這些定制資源包在實際應用環(huán)境取得效果提高已經(jīng)得到了驗證。InterPhonic 3.0將繼續(xù)對定制資源包這一重要特性提供支持,同時還將繼續(xù)支持行業(yè)專用版,如銀行專業(yè)版,以滿足銀行業(yè)日益增長的語音應用需要。

5.背景音支持;
  通過實驗和對實際應用環(huán)境的考察分析發(fā)現(xiàn),在合成語音或提示音中適當?shù)奶砑颖尘耙魳罚梢愿纳朴脩粼趯嶋H應用過程中的體驗,使語音服務更加的親切自然。在目前的電話語音應用中,如果客戶希望實現(xiàn)背景音和合成語音的同步播放,必須了解一定的語音知識,學習使用專業(yè)的語音制作工具。科大訊飛考慮了客戶的實際要求,在InterPhonic 3.0系統(tǒng)中實現(xiàn)了背景音的管理和與合成語音的自動融合。客戶可以使用系統(tǒng)提供的工具,添加預錄好的背景音樂,調整背景音樂和合成語音的音量的對比關系,并且可以試聽增加了背景音之后的語音效果。在合成過程中,客戶只需要在文本中添加CSSML標記,就可以通過序號引用已經(jīng)添加的背景音樂。客戶不需要開發(fā)工作,不需要修改已有的應用程序,就可以實現(xiàn)有背景音樂的語音合成功能。

6.用戶提示音資源管理;
  目前的電話語音系統(tǒng)的業(yè)務流程中往往需要同時使用預錄的提示音和合成語音結合進行提供語音服務。因此在應用設計和業(yè)務開發(fā)過程中,需要頻繁地處理提示音播放與語音合成的切換以及之間的過渡銜接等問題,增加了流程的復雜程度。而提示音與合成語音的銜接處理不好,就容易造成語音差異明顯,影響服務的整體效果與質量。

  InterPhonic 3.0中具有對提示音的統(tǒng)一管理和處理的功能。用戶可以將提示音添加到系統(tǒng)中作為資源,并提供了自動或手動的方式調整提示音的語音特征,使提示音和合成語音合成更好的銜接。客戶使用CSSML文本標記利用序號引用提示音,通過合成系統(tǒng)的開發(fā)接口得到的語音數(shù)據(jù)會自動處理提示音與合成語音的拼接問題。客戶不需要的額外的開發(fā)工作就可以提升同時使用兩種語音的情況下播報的語音效果。如果結合InterPhonic 3.0新支持的背景音特性,兩段語音之間有背景音樂進行過渡,語音應用的效果將更加自然。

7.提供功能豐富、使用便捷的合成工具包。
  致力于語音合成核心引擎的縱深研發(fā)和不斷提升之外,科大訊飛同時不斷推出方便語音開發(fā)與應用的工具,幫助合作伙伴和客戶提高語音應用的效果和效率。InterPhonic 3.0對語音合成工具包進一步進行豐富與完善,這里面既包括一些客戶已經(jīng)熟悉的TTS Doctor技術支持工具、CSSML Editor可視化編輯工具,還將新增性能評估計算工具,并完善離線語音合成套件等等。合理地運用這些工具,有利于合作伙伴和客戶更好的維護與應用語音合成系統(tǒng),縮短語音應用集成開發(fā)的時間。

  以上只是InterPhonic 3.0部分新特性的預覽,InterPhonic 3.0同時還支持目前市場主流應用的InterPhonic CE 2.2的所有重要特性。我們相信,隨著InterPhonic 3.0的推出,將促使語音應用邁上更高的臺階。

科大訊飛公司供稿 CTI論壇編輯



相關鏈接:
訊飛暢言語音教具系統(tǒng)榮獲“創(chuàng)新軟件產(chǎn)品” 2009-09-08
科大訊飛嵌入式語音新產(chǎn)品發(fā)布會在深圳舉行 2009-09-07
“會說話”的顯示屏提升居民小區(qū)信息服務水平 2009-09-07
訊飛語音助力太平人壽客服中心 2009-08-28
訊飛語音助力CDMA手機競爭終端市場 2009-08-14

分類信息:     技術_語音合成_解決方案
巴塘县| 东港市| 陇川县| 安乡县| 海口市| 祁阳县| 安宁市| 光山县| 平顶山市| 绩溪县| 修水县| 泗阳县| 垣曲县| 邳州市| 安陆市| 容城县| 诸城市| 曲阳县| 松溪县| 普定县| 桐庐县| 百色市| 安陆市| 平原县| 青河县| 丹棱县| 山阴县| 安徽省| 星子县| 宜君县| 罗田县| 桃园市| 莎车县| 赤峰市| 大洼县| 叶城县| 郑州市| 临海市| 富阳市| 鹰潭市| 茶陵县|