語音合成技術與電信應用
易 龍 2001/06/05
隨著信息產業(yè)的快速發(fā)展,電信服務日趨豐富多彩,因特網應用越來越人性化,以前主要應用于計算機領域的語音合成技術最近與通信網絡的結合成為新的應用熱點。最近,記者走訪了清華大學計算機系人機交互與多媒體集成研究所蔡蓮紅教授和陶建華博士。——編者
語音識別和語音合成技術是實現(xiàn)人機語音通信及建立一個有聽和講能力的口語系統(tǒng)所必需的兩項關鍵技術。使電腦具有類似于人一樣的說話和聽懂人說話的能力,是20世紀90年代信息產業(yè)的重要競爭市場。和語音識別相比,語音合成技術相對說來要成熟一些,是該領域中近期最有希望產生突破并形成產業(yè)化的一項技術。
清華大學計算機系人機語音對話研究組成立于1979年。1992年研制成功漢語TTS(文字-語音轉換)系統(tǒng)Sonic。經過多年的改進,Sonic系統(tǒng)目前可運行在DOS、Windows、Unix等操作系統(tǒng)下。清華大學研究了漢語的聲調、重音、語調的聲學特性,并設計了韻律控制符,進行了重音和語調的模擬。在韻律規(guī)則方面,采用統(tǒng)計和規(guī)則相結合的方法,研究了漢語韻律規(guī)則并進行了一定的韻律模擬工作。在韻律的學習算法方面,已經針對神經網絡模型中層次結構和訓練算法及其輸入、輸出參數(shù)的設計進行了一定的研究。未來,期望通過進一步研究TTS系統(tǒng)的韻律學習能力,優(yōu)化韻律規(guī)則,完善韻律描述,同時改變合成語音千篇一律、缺乏變化的現(xiàn)狀。
目前,網絡技術的飛速發(fā)展,使Internet服務項目日益增多,時效性提高。同時,電話已成為人與網絡交互信息的終端,如通過電話查詢股票行情,進行股票交易;通知或查詢即時到達的電子郵件;通過電話進行電子商務活動等。這些不但用到電話技術,還必須與語音合成技術緊密配合。它們促進了電話網和數(shù)據(jù)網的融合,為人們提供了全新的服務。借助TTS技術,可以把數(shù)據(jù)庫中的文字變成聲音,用戶利用電話收聽即時變化的信息,這樣就能通過電信網絡為用戶提供各種信息服務。用戶可以通過計算機或電話得到Internet的服務。當以電話方式獲得服務時,信息提供商應能自適應地傳送用戶所需信息,即將文字、圖表及有關信息轉換成聲音,傳送到用戶的電話上。在移動通信領域,用戶使用手機查看電子郵件十分不方便,而語音合成技術可以將電子郵件轉換成聲音,使用戶接收變得十分容易。TTS技術是實現(xiàn)這些服務的關鍵。
據(jù)了解,清華大學目前正在與炎黃新星公司合作開發(fā)電信領域的語音合成技術應用,目前其在統(tǒng)一消息系統(tǒng)中采用了清華的TTS技術,使用戶在任何位置都能收聽到自己的電子郵件。這一方案目前被應用于中國移動夢網,雙方還計劃將這一技術進一步推廣到更大的電信應用領域。
摘自《人民郵電報 》
捷通語音技術又獲突破 2001-06-06 |
統(tǒng)一消息平臺中的語音技術 2001-06-04 |
文本-可視語音轉換及其應用 2001-06-04 |
數(shù)據(jù)挖掘走入語音處理 2001-06-04 |
神經網絡與漢語TTS韻律模型 2001-06-01 |