近兩年CPU的發(fā)展很快,語音識別中的算法也日益精湛,兩者有機地集成在一起后,應用的條件就日趨成熟了。
從語音識別技術的角度來看,目前有3個研究發(fā)展方向,即面向電腦、電話和手機的應用。電腦的語音錄入應用是指電腦能夠把人所說的話記錄下來,解決文字輸入的問題;電話的語音識別應用是借助通信平臺,實現語音技術的更廣泛應用;手機的語音識別應用是嵌入式的語音識別技術,實現手機、尋呼機在移動通信中的語音識別應用。據專業(yè)人士預測,5~10年以后,上述3個方向將會發(fā)生相互融合。
IBM公司在電腦的語音錄入方面取得了重大的突破,Philips則在不斷挑戰(zhàn)手機的語音識別的難題。而言豐科技所研究的領域專注在電話的語音識別和語音合成技術上。言豐科技希望通過基于通信平臺的語音識別,能夠得到廣泛的、有實際價值的商業(yè)應用。
從語音信號的采集方式來看,電腦錄入對語音質量的要求比較嚴格,而電話采集的語音質量就比較寬容。電腦錄入使用的是非自然語言,而電話是自然語言。要做好對電話語音的識別,就需要系統(tǒng)能夠對男女老少,甚至是帶有一些地方口音的各種語言進行識別。另外,基于通信平臺的語音識別應用是有一定范圍的,它所涉及的詞匯量是可以控制的,這一點要比電腦語音錄入容易實現。
在討論了語音識別技術很多年之后,為什么這個話題在最近又大幅度升溫了呢?言豐科技的梁康忠博士說:“技術發(fā)展到一定階段時打破了應用的瓶頸,從而帶來了應用的進步。語音識別是一項難度很大的技術,里面的算法非常復雜,對CPU的要求也非常高,過去應用的條件不具備。而近兩年CPU的發(fā)展很快,語音識別中的算法也日益精湛,兩者有機地集成在一起后,應用的條件就日趨成熟了。”
語音識別面臨的問題
國外已經有了不少較大規(guī)模的語音識別IVR系統(tǒng)或者呼叫中心的應用,然而在國內,雖然有將語音識別和呼叫中心結合起來的趨勢,但仍沒有多少應用。這其中雖然有諸多影響因素,但重要的一點就是漢語語音識別技術還不夠完善。那么,語音識別技術要進入大規(guī)模商用,還要跨越哪些障礙呢?
1.用戶的獨立性
所謂用戶的獨立性,就是指語音識別軟件能夠識別有不同嗓音和口音的用戶,而無需通過訓練軟件來使其識別一個特殊用戶的聲音。目前的許多語音識別軟件,是基于標準的發(fā)音來進行識別的; 而實際上,人們說話千差萬別,發(fā)音也各不相同,特別對于有口音的語音來說,更是對語音識別軟件提出了嚴峻的挑戰(zhàn)。
2.自然語言的能力
有少數復雜的語音識別系統(tǒng)使用提示性對話,而這樣的語音識別系統(tǒng)提示用戶,是用一個單詞或記號來回答。根據專門機構的調查,多數人更喜歡用約定俗成的自然語言,而不喜歡使用提示性對話。
3.處理插入的能力
插入的能力是指允許用戶在系統(tǒng)提示時中斷系統(tǒng),但系統(tǒng)依然能知道用戶的請求。
這點對于實際的應用來說有相當重要的意義。因為人們在說話時,總是在不自覺地思考,經常會打斷語言的連續(xù)性,而插入一些補充性的語言。這樣的語言,在語法上來說經常是不正確的,常規(guī)的語音識別系統(tǒng)很難處理這些語音。
4.軟件身份驗證的能力
軟件身份驗證的能力是指根據用戶的嗓音和語言特點來識別用戶的能力。這在實際中是一個非常有價值的特點,如可用于人事管理中。
語音識別研究現狀
1.語音識別獲得應用
伴隨著語音識別技術的不斷發(fā)展,誕生了全球首套多語種交談式語音識別系統(tǒng)e-talk。這是由言豐科技自主開發(fā)的、全球惟一擁有中英混合語言的識別系統(tǒng),能聽、能講普通話、廣東話和英語,還可以高度適應不同的口音,因而可以廣泛適用于不同文化背景的使用者,尤其是中國地區(qū)語言差別較大的廣大用戶。
2.語音合成信息服務被用戶接受
語音合成技術把可視的文本信息轉化為可聽的聲音信息,其應用的經濟效益和社會效益前景良好。尤其對漢語語音合成技術的應用而言,全球有十幾億人使用中文,其市場需求、應用前景和經濟效益都是十分有潛力的。
語音技術已逐漸在電信聲訊信息服務領域的智能電話查詢系統(tǒng)中展開應用,并迅速得到推廣。目前電話高度普及,如果通過最便捷的電話方式就能查詢到所需信息,無疑將給人們的日常生活帶來極大方便。漢語語音合成技術應用到聲訊服務領域內,將對現有的電話查詢系統(tǒng)產生革命性的影響。
隨著互聯網的出現和推廣,在技術上,語音與互聯網已能夠成功地結合。用戶可以通過電話,方便地發(fā)送電子郵件和類似的留言信息,不僅具有傳統(tǒng)的語音信箱功能,還可以將用戶語音以IP的方式廉價地發(fā)送到全球任何一個電腦或電話終端上,大大降低了信息交流的成本。
3.面向對象的語音編碼技術獲得突破
長期以來,在通信網的發(fā)展中,提高信息傳輸效率是一個關鍵問題。目前已有兩個途徑可以解決這一問題:一是研究新的調制方法與技術,來提高信道傳輸信息的比特率,指標是每赫茲帶寬所傳送的比特數;二是壓縮信源編碼的比特率,例如標準PCM編碼,對3.4kHz頻帶信號需用64Kbps編碼比特率傳送,而壓縮這一比特率顯然可以提高信道傳送的話路數。實際上,壓縮語音編碼比特率與話音存儲、語音識別及語音合成等技術都直接相關。
4.口語機器翻譯受到重視
口語翻譯的一個重要目的就是幫助聾啞人與正常人交流。首先,聾啞人要戴上一副特制的手套,計算機根據他打出的手語進行識別,然后,通過語音合成系統(tǒng)就可以把圖像信息翻譯成語言信息。同時,系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語。將正常人說的話鍵入計算機,經程序分析處理之后,翻譯成有表情、有動作的三維圖像,就可最終達到聾啞人與正常人之間通過翻譯機進行交流的目的。口語翻譯的研究在其他很多方面都有重要價值,如用手勢控制計算機,甚至用手勢導航等。
語音識別技術進入商用
語音技術開辟了一個巨大的應用市場,目前的語音技術應用的程度如何呢?
1.技術成熟
在技術方面,英語的語音技術比漢語的語音技術的商用程度更廣,實用程度更好。在漢語的語音技術方面,國內的語音合成技術比較成熟,已經達到了商用的標準; 在語音識別方面,已經有一些產品開始投入商用,如言豐科技的e-talk產品。
2.廠家眾多
在語音識別方面,有國外的IBM、Philips、Nuance等公司;國內的有香港的InfoTalk、捷通等。在語音合成方面,能夠提供產品的公司就十分多了,有的產品是用軟件來實現,有的專門設計了硬件芯片。
3.促進網絡的融合
語音技術的發(fā)展,帶動了網絡的融合過程。目前,世界上的兩大通信網絡是電信網和計算機網,電信網是以語音信號為處理對象,計算機網則是以數據信號為其處理內容。語音技術為兩個網絡的結合,奠定了技術基礎。
4.語音接入通過PSTN
目前,人們進行信息交流的主要方式還是通過電話網。用戶可以通過撥打一個電話號碼,接入到信息訪問中心。
語音技術商機無限
1.金融
采用了語音技術后,通過電話,不用人工的干預,就可以進行賬戶余額查詢,完成賬戶間的轉賬等工作。不僅提高了工作的效率,也改善了服務商的形象。
2.證券
用戶通過電話可以查詢當前的股市情況,不用再按電話上的按鍵,而是直接說出自己關心的股票的名稱,計算機就通過語音合成技術,將結果播報出來。
3.電信和尋呼
采用語音技術,在電信業(yè)務中將產生很多的應用。例如在“114”電話黃頁中,目前還要有大量的人工服務; 而如果采用語音技術,就可以不用人工服務,讓計算機自動接聽用戶的需要,然后回放查詢的電話號碼。尋呼目前還是通過尋呼小姐記下用戶要尋呼的目標號碼,然后將內容輸入到尋呼系統(tǒng)進行發(fā)射; 采用語音技術后,可以讓計算機自動地進行整個操作過程。
4.旅游
用戶可以通過電話,自動查詢那些感興趣的景點的語音介紹材料,相當于請了一個電話導游。當出現問題時,也可以通過電話,進行各種求助。
5.娛樂
語音技術在娛樂方面,也可以激發(fā)出許多的新應用。例如,在通過電話進行電視MTV點播時,可以避免重復地按電話上的按鍵,而是直接說出是哪個歌手的哪首歌,電視臺就通過接收語音輸入,播放相應的曲目。
技術為本,應用為先。言豐科技在研發(fā)語音識別技術產品時,就希望能夠通過自然的語言交流,實現人機交互式的對話形式,使電腦能理解我們的語言,并按照我們的指示去工作。因為這一目標的實現將會給人類的工作和生活帶來質的變化,同時將產生巨大的商業(yè)價值。因此,目前基于通信平臺的語音識別技術的商業(yè)應用已被眾多的企業(yè)所關注。有專家預測,隨著技術的快速發(fā)展,再過10~20年的時間,我們將可以做到非常自然的人機交互式對話。
IBM供稿 CTI論壇編輯