近兩年CPU的發(fā)展很快，語音識(shí)別中的算法也日益精湛，兩者有機(jī)地集成在一起后，應(yīng)用的條件就日趨成熟了。

從語音識(shí)別技術(shù)的角度來看，目前有3個(gè)研究發(fā)展方向，即面向電腦、電話和手機(jī)的應(yīng)用。電腦的語音錄入應(yīng)用是指電腦能夠把人所說的話記錄下來，解決文字輸入的問題；電話的語音識(shí)別應(yīng)用是借助通信平臺(tái)，實(shí)現(xiàn)語音技術(shù)的更廣泛應(yīng)用；手機(jī)的語音識(shí)別應(yīng)用是嵌入式的語音識(shí)別技術(shù)，實(shí)現(xiàn)手機(jī)、尋呼機(jī)在移動(dòng)通信中的語音識(shí)別應(yīng)用。據(jù)專業(yè)人士預(yù)測(cè)，5～10年以后，上述3個(gè)方向?qū)?huì)發(fā)生相互融合。

IBM公司在電腦的語音錄入方面取得了重大的突破，Philips則在不斷挑戰(zhàn)手機(jī)的語音識(shí)別的難題。而言豐科技所研究的領(lǐng)域?qū)Ｗ⒃陔娫挼恼Z音識(shí)別和語音合成技術(shù)上。言豐科技希望通過基于通信平臺(tái)的語音識(shí)別，能夠得到廣泛的、有實(shí)際價(jià)值的商業(yè)應(yīng)用。

從語音信號(hào)的采集方式來看，電腦錄入對(duì)語音質(zhì)量的要求比較嚴(yán)格，而電話采集的語音質(zhì)量就比較寬容。電腦錄入使用的是非自然語言，而電話是自然語言。要做好對(duì)電話語音的識(shí)別，就需要系統(tǒng)能夠?qū)δ信仙�，甚至是帶有一些地方口音的各種語言進(jìn)行識(shí)別。另外，基于通信平臺(tái)的語音識(shí)別應(yīng)用是有一定范圍的，它所涉及的詞匯量是可以控制的，這一點(diǎn)要比電腦語音錄入容易實(shí)現(xiàn)。

在討論了語音識(shí)別技術(shù)很多年之后，為什么這個(gè)話題在最近又大幅度升溫了呢？言豐科技的梁康忠博士說：“技術(shù)發(fā)展到一定階段時(shí)打破了應(yīng)用的瓶頸，從而帶來了應(yīng)用的進(jìn)步。語音識(shí)別是一項(xiàng)難度很大的技術(shù)，里面的算法非常復(fù)雜，對(duì)CPU的要求也非常高，過去應(yīng)用的條件不具備。而近兩年CPU的發(fā)展很快，語音識(shí)別中的算法也日益精湛，兩者有機(jī)地集成在一起后，應(yīng)用的條件就日趨成熟了�！�

語音識(shí)別面臨的問題

國(guó)外已經(jīng)有了不少較大規(guī)模的語音識(shí)別IVR系統(tǒng)或者呼叫中心的應(yīng)用，然而在國(guó)內(nèi)，雖然有將語音識(shí)別和呼叫中心結(jié)合起來的趨勢(shì)，但仍沒有多少應(yīng)用。這其中雖然有諸多影響因素，但重要的一點(diǎn)就是漢語語音識(shí)別技術(shù)還不夠完善。那么，語音識(shí)別技術(shù)要進(jìn)入大規(guī)模商用，還要跨越哪些障礙呢？

1．用戶的獨(dú)立性

所謂用戶的獨(dú)立性，就是指語音識(shí)別軟件能夠識(shí)別有不同嗓音和口音的用戶，而無需通過訓(xùn)練軟件來使其識(shí)別一個(gè)特殊用戶的聲音。目前的許多語音識(shí)別軟件，是基于標(biāo)準(zhǔn)的發(fā)音來進(jìn)行識(shí)別的; 而實(shí)際上，人們說話千差萬別，發(fā)音也各不相同，特別對(duì)于有口音的語音來說，更是對(duì)語音識(shí)別軟件提出了嚴(yán)峻的挑戰(zhàn)。

2．自然語言的能力

有少數(shù)復(fù)雜的語音識(shí)別系統(tǒng)使用提示性對(duì)話，而這樣的語音識(shí)別系統(tǒng)提示用戶，是用一個(gè)單詞或記號(hào)來回答。根據(jù)專門機(jī)構(gòu)的調(diào)查，多數(shù)人更喜歡用約定俗成的自然語言，而不喜歡使用提示性對(duì)話。

3．處理插入的能力

插入的能力是指允許用戶在系統(tǒng)提示時(shí)中斷系統(tǒng)，但系統(tǒng)依然能知道用戶的請(qǐng)求。　　

這點(diǎn)對(duì)于實(shí)際的應(yīng)用來說有相當(dāng)重要的意義。因?yàn)槿藗冊(cè)谡f話時(shí)，總是在不自覺地思考，經(jīng)常會(huì)打斷語言的連續(xù)性，而插入一些補(bǔ)充性的語言。這樣的語言，在語法上來說經(jīng)常是不正確的，常規(guī)的語音識(shí)別系統(tǒng)很難處理這些語音。

4．軟件身份驗(yàn)證的能力

軟件身份驗(yàn)證的能力是指根據(jù)用戶的嗓音和語言特點(diǎn)來識(shí)別用戶的能力。這在實(shí)際中是一個(gè)非常有價(jià)值的特點(diǎn)，如可用于人事管理中。

語音識(shí)別研究現(xiàn)狀

1．語音識(shí)別獲得應(yīng)用

伴隨著語音識(shí)別技術(shù)的不斷發(fā)展，誕生了全球首套多語種交談式語音識(shí)別系統(tǒng)e-talk。這是由言豐科技自主開發(fā)的、全球惟一擁有中英混合語言的識(shí)別系統(tǒng)，能聽、能講普通話、廣東話和英語，還可以高度適應(yīng)不同的口音，因而可以廣泛適用于不同文化背景的使用者，尤其是中國(guó)地區(qū)語言差別較大的廣大用戶。

2．語音合成信息服務(wù)被用戶接受

語音合成技術(shù)把可視的文本信息轉(zhuǎn)化為可聽的聲音信息，其應(yīng)用的經(jīng)濟(jì)效益和社會(huì)效益前景良好。尤其對(duì)漢語語音合成技術(shù)的應(yīng)用而言，全球有十幾億人使用中文，其市場(chǎng)需求、應(yīng)用前景和經(jīng)濟(jì)效益都是十分有潛力的。

語音技術(shù)已逐漸在電信聲訊信息服務(wù)領(lǐng)域的智能電話查詢系統(tǒng)中展開應(yīng)用，并迅速得到推廣。目前電話高度普及，如果通過最便捷的電話方式就能查詢到所需信息，無疑將給人們的日常生活帶來極大方便。漢語語音合成技術(shù)應(yīng)用到聲訊服務(wù)領(lǐng)域內(nèi)，將對(duì)現(xiàn)有的電話查詢系統(tǒng)產(chǎn)生革命性的影響。

隨著互聯(lián)網(wǎng)的出現(xiàn)和推廣，在技術(shù)上，語音與互聯(lián)網(wǎng)已能夠成功地結(jié)合。用戶可以通過電話，方便地發(fā)送電子郵件和類似的留言信息，不僅具有傳統(tǒng)的語音信箱功能，還可以將用戶語音以IP的方式廉價(jià)地發(fā)送到全球任何一個(gè)電腦或電話終端上，大大降低了信息交流的成本。

3．面向?qū)ο蟮恼Z音編碼技術(shù)獲得突破

長(zhǎng)期以來，在通信網(wǎng)的發(fā)展中，提高信息傳輸效率是一個(gè)關(guān)鍵問題。目前已有兩個(gè)途徑可以解決這一問題：一是研究新的調(diào)制方法與技術(shù)，來提高信道傳輸信息的比特率，指標(biāo)是每赫茲帶寬所傳送的比特?cái)?shù)；二是壓縮信源編碼的比特率，例如標(biāo)準(zhǔn)PCM編碼，對(duì)3.4kHz頻帶信號(hào)需用64Kbps編碼比特率傳送，而壓縮這一比特率顯然可以提高信道傳送的話路數(shù)。實(shí)際上，壓縮語音編碼比特率與話音存儲(chǔ)、語音識(shí)別及語音合成等技術(shù)都直接相關(guān)。

4．口語機(jī)器翻譯受到重視

口語翻譯的一個(gè)重要目的就是幫助聾啞人與正常人交流。首先，聾啞人要戴上一副特制的手套，計(jì)算機(jī)根據(jù)他打出的手語進(jìn)行識(shí)別，然后，通過語音合成系統(tǒng)就可以把圖像信息翻譯成語言信息。同時(shí)，系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語。將正常人說的話鍵入計(jì)算機(jī)，經(jīng)程序分析處理之后，翻譯成有表情、有動(dòng)作的三維圖像，就可最終達(dá)到聾啞人與正常人之間通過翻譯機(jī)進(jìn)行交流的目的。口語翻譯的研究在其他很多方面都有重要價(jià)值，如用手勢(shì)控制計(jì)算機(jī)，甚至用手勢(shì)導(dǎo)航等。

語音識(shí)別技術(shù)進(jìn)入商用

語音技術(shù)開辟了一個(gè)巨大的應(yīng)用市場(chǎng)，目前的語音技術(shù)應(yīng)用的程度如何呢？

1．技術(shù)成熟

在技術(shù)方面，英語的語音技術(shù)比漢語的語音技術(shù)的商用程度更廣，實(shí)用程度更好。在漢語的語音技術(shù)方面，國(guó)內(nèi)的語音合成技術(shù)比較成熟，已經(jīng)達(dá)到了商用的標(biāo)準(zhǔn); 在語音識(shí)別方面，已經(jīng)有一些產(chǎn)品開始投入商用，如言豐科技的e-talk產(chǎn)品。

2．廠家眾多

在語音識(shí)別方面，有國(guó)外的IBM、Philips、Nuance等公司；國(guó)內(nèi)的有香港的InfoTalk、捷通等。在語音合成方面，能夠提供產(chǎn)品的公司就十分多了，有的產(chǎn)品是用軟件來實(shí)現(xiàn)，有的專門設(shè)計(jì)了硬件芯片。

3．促進(jìn)網(wǎng)絡(luò)的融合

語音技術(shù)的發(fā)展，帶動(dòng)了網(wǎng)絡(luò)的融合過程。目前，世界上的兩大通信網(wǎng)絡(luò)是電信網(wǎng)和計(jì)算機(jī)網(wǎng)，電信網(wǎng)是以語音信號(hào)為處理對(duì)象，計(jì)算機(jī)網(wǎng)則是以數(shù)據(jù)信號(hào)為其處理內(nèi)容。語音技術(shù)為兩個(gè)網(wǎng)絡(luò)的結(jié)合，奠定了技術(shù)基礎(chǔ)。

4．語音接入通過PSTN

目前，人們進(jìn)行信息交流的主要方式還是通過電話網(wǎng)。用戶可以通過撥打一個(gè)電話號(hào)碼，接入到信息訪問中心。

語音技術(shù)商機(jī)無限

1．金融

采用了語音技術(shù)后，通過電話，不用人工的干預(yù)，就可以進(jìn)行賬戶余額查詢，完成賬戶間的轉(zhuǎn)賬等工作。不僅提高了工作的效率，也改善了服務(wù)商的形象。

2．證券

用戶通過電話可以查詢當(dāng)前的股市情況，不用再按電話上的按鍵，而是直接說出自己關(guān)心的股票的名稱，計(jì)算機(jī)就通過語音合成技術(shù)，將結(jié)果播報(bào)出來。

3．電信和尋呼

采用語音技術(shù)，在電信業(yè)務(wù)中將產(chǎn)生很多的應(yīng)用。例如在“114”電話黃頁中，目前還要有大量的人工服務(wù); 而如果采用語音技術(shù)，就可以不用人工服務(wù)，讓計(jì)算機(jī)自動(dòng)接聽用戶的需要，然后回放查詢的電話號(hào)碼。尋呼目前還是通過尋呼小姐記下用戶要尋呼的目標(biāo)號(hào)碼，然后將內(nèi)容輸入到尋呼系統(tǒng)進(jìn)行發(fā)射; 采用語音技術(shù)后，可以讓計(jì)算機(jī)自動(dòng)地進(jìn)行整個(gè)操作過程。

4．旅游

用戶可以通過電話，自動(dòng)查詢那些感興趣的景點(diǎn)的語音介紹材料，相當(dāng)于請(qǐng)了一個(gè)電話導(dǎo)游。當(dāng)出現(xiàn)問題時(shí)，也可以通過電話，進(jìn)行各種求助。

5．娛樂

語音技術(shù)在娛樂方面，也可以激發(fā)出許多的新應(yīng)用。例如，在通過電話進(jìn)行電視MTV點(diǎn)播時(shí)，可以避免重復(fù)地按電話上的按鍵，而是直接說出是哪個(gè)歌手的哪首歌，電視臺(tái)就通過接收語音輸入，播放相應(yīng)的曲目。

技術(shù)為本，應(yīng)用為先。言豐科技在研發(fā)語音識(shí)別技術(shù)產(chǎn)品時(shí)，就希望能夠通過自然的語言交流，實(shí)現(xiàn)人機(jī)交互式的對(duì)話形式，使電腦能理解我們的語言，并按照我們的指示去工作。因?yàn)檫@一目標(biāo)的實(shí)現(xiàn)將會(huì)給人類的工作和生活帶來質(zhì)的變化，同時(shí)將產(chǎn)生巨大的商業(yè)價(jià)值。因此，目前基于通信平臺(tái)的語音識(shí)別技術(shù)的商業(yè)應(yīng)用已被眾多的企業(yè)所關(guān)注。有專家預(yù)測(cè)，隨著技術(shù)的快速發(fā)展，再過10～20年的時(shí)間，我們將可以做到非常自然的人機(jī)交互式對(duì)話。

IBM供稿 CTI論壇編輯

中文字幕在线视频第一页,黄色毛片在线看,日本爱爱网站,亚洲系列中文字幕一区二区

語音識(shí)別重在應(yīng)用

評(píng)論排行

推薦閱讀

專題

文章排行