首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品

語(yǔ)音識(shí)別領(lǐng)域的VC投資機(jī)會(huì)

周春兵 2009/06/23

一、行業(yè)簡(jiǎn)單描述

  語(yǔ)音是人類溝通和獲取信息最自然便捷的方式。自上世紀(jì)6、70年代作為殘障人士的輔助型技術(shù)產(chǎn)生,到今天已逐漸在各類實(shí)用領(lǐng)域嶄露頭角并發(fā)揮獨(dú)特效能的一項(xiàng)高科技,語(yǔ)音識(shí)別技術(shù)在業(yè)界正得到越來(lái)越廣泛的認(rèn)可并予以密切的關(guān)注。在信息化時(shí)代,人們對(duì)信息獲取和信息溝通方式提出了更加智能的要求,輕松便捷地解決一切日常問(wèn)題成為業(yè)界爭(zhēng)相尋求突破的著眼點(diǎn)。而語(yǔ)音識(shí)別技術(shù)以其得天獨(dú)厚的優(yōu)勢(shì)越來(lái)越多地進(jìn)入到人們?nèi)粘I詈凸ぷ鞯姆椒矫婷妫鹤岆娔X、手機(jī)、玩具等各種機(jī)器設(shè)備能聽(tīng)懂主人的命令,提供更為人性化的操作方式;在電話里對(duì)自動(dòng)語(yǔ)音發(fā)出指令即能解決問(wèn)題;用語(yǔ)音軟件進(jìn)行文字輸入等等。在人們享受日益豐富的語(yǔ)音技術(shù)應(yīng)用所帶來(lái)的便利性、人性化和個(gè)性化的同時(shí),語(yǔ)音技術(shù)廣闊的產(chǎn)業(yè)化前景正越來(lái)越清晰地展現(xiàn)在世人眼前。毋庸置疑,其可預(yù)見(jiàn)的應(yīng)用市場(chǎng)和潛在的無(wú)限商機(jī)正同時(shí)吸引著具有遠(yuǎn)大目光的技術(shù)提供商和資本運(yùn)營(yíng)商。

  語(yǔ)音識(shí)別技術(shù)根據(jù)識(shí)別對(duì)象的不同分為聲紋識(shí)別技術(shù)和語(yǔ)意識(shí)別技術(shù)。

  聲紋識(shí)別:是根據(jù)語(yǔ)音波形中反映說(shuō)話人生理和行為特征的語(yǔ)音參數(shù)自動(dòng)識(shí)別說(shuō)話人身份的一門(mén)技術(shù)。聲紋識(shí)別的作用主要有兩個(gè)方面:一是說(shuō)話人辨認(rèn)(Speaker Identification),主要用于判斷某一語(yǔ)音材料是由若干發(fā)音者中哪一人所說(shuō),屬于“多選一”的識(shí)別;二是說(shuō)話人確認(rèn)(Speaker Verification),主要用于確認(rèn)某一語(yǔ)音材料是否由指定的某個(gè)人所說(shuō)的,屬于“一對(duì)一”識(shí)別。聲紋識(shí)別賴以實(shí)現(xiàn)的基礎(chǔ)是蘊(yùn)含于語(yǔ)音信號(hào)中的說(shuō)話人發(fā)音特征,這一技術(shù)強(qiáng)調(diào)說(shuō)話人的個(gè)性,而不考慮以語(yǔ)音為物質(zhì)外殼的話語(yǔ)意義。從本質(zhì)上說(shuō),聲紋識(shí)別技術(shù)屬于“生物因子”認(rèn)證范疇。聲紋同指紋有著類似的屬性。每個(gè)人的指紋都是唯一的,而聲紋也是人的個(gè)性特征,很難找到兩個(gè)聲紋完全相同的人。

  語(yǔ)意識(shí)別:是對(duì)語(yǔ)音材料所承載的實(shí)際意義的識(shí)別。它有別于聲紋識(shí)別,聲紋識(shí)別主要著眼于語(yǔ)音的物理屬性和生理屬性,以辨認(rèn)或確認(rèn)說(shuō)話人為目的;而語(yǔ)意識(shí)別則著眼于語(yǔ)音的社會(huì)屬性,以識(shí)別語(yǔ)音信號(hào)所承載的話語(yǔ)內(nèi)容為目的。語(yǔ)意識(shí)別比聲紋識(shí)別要困難得多。說(shuō)話人的語(yǔ)音通常會(huì)受到母語(yǔ)、方言、發(fā)音器官和發(fā)音狀態(tài)等諸多因素的影響,正是因?yàn)檎f(shuō)話人語(yǔ)音特征各異,才為聲紋識(shí)別提供了可能性。但是,要將具有個(gè)性的聲紋與具有共性的語(yǔ)法和語(yǔ)義模型相匹配,要通過(guò)詞語(yǔ)切分、詞性標(biāo)注、結(jié)構(gòu)分析和語(yǔ)境理解等程序,達(dá)到正確識(shí)別話語(yǔ)內(nèi)容,則是一個(gè)相當(dāng)復(fù)雜的處理過(guò)程。

二、語(yǔ)音識(shí)別市場(chǎng)分析

  語(yǔ)音識(shí)別技術(shù)是生物識(shí)別技術(shù)的一種,自上世紀(jì)6、70年代語(yǔ)音識(shí)別技術(shù)的產(chǎn)生,到如今該技術(shù)已日漸完善,并逐步走出實(shí)驗(yàn)室在各領(lǐng)域進(jìn)入實(shí)際應(yīng)用階段。語(yǔ)音比起其他交互方式有著更多獨(dú)特的優(yōu)勢(shì),在生物識(shí)別領(lǐng)域,它以其靜態(tài)(聲紋)和動(dòng)態(tài)(語(yǔ)意)的雙重屬性具有其他生物特征無(wú)可比擬的廣闊應(yīng)用前景,因而在許多發(fā)達(dá)國(guó)家已被廣泛接受和使用。而在中國(guó),語(yǔ)音技術(shù)的應(yīng)用起步較晚,以至于有些在國(guó)外已經(jīng)十分常見(jiàn)的語(yǔ)音產(chǎn)品在國(guó)內(nèi)看來(lái)仍十分新鮮甚至令人不可思議。眾所周知,市場(chǎng)空白并不意味著零市場(chǎng),相反,尚未被喚醒的市場(chǎng)需求經(jīng)過(guò)信息流動(dòng)和共享后有可能得到“井噴”式的爆發(fā)增長(zhǎng)。

  語(yǔ)音識(shí)別技術(shù)根據(jù)其屬性,基本功能可歸為兩大類,一類是根據(jù)人本身的聲紋特征來(lái)進(jìn)行身份認(rèn)證,另一類是根據(jù)人發(fā)出特定的語(yǔ)音指令來(lái)進(jìn)行命令控制。由此引出的應(yīng)用市場(chǎng)基本可以包括這幾個(gè)方面:桌面應(yīng)用、嵌入式應(yīng)用、電話系統(tǒng)、Web應(yīng)用以及特殊應(yīng)用領(lǐng)域等。

1. 桌面應(yīng)用

  即語(yǔ)音識(shí)別技術(shù)集成在PC機(jī)上的應(yīng)用,不僅可以用語(yǔ)音識(shí)別來(lái)進(jìn)行身份認(rèn)證和編輯文本,而且可以通過(guò)聽(tīng)取和響應(yīng)用戶講述的命令來(lái)運(yùn)行程序并與操作系統(tǒng)實(shí)現(xiàn)交互。但是跨國(guó)IT巨頭如微軟、IBM等已介入該領(lǐng)域,且可以充分利用其成熟產(chǎn)品的協(xié)同性來(lái)進(jìn)行市場(chǎng)滲透,如Windows XP、Vista及Office 2007等都內(nèi)嵌了語(yǔ)音識(shí)別功能,具有壟斷優(yōu)勢(shì)。

2. 嵌入式應(yīng)用

  嵌入式應(yīng)用的范疇很廣,需要根據(jù)市場(chǎng)需求考慮不同的嵌入式硬件平臺(tái),如手持或移動(dòng)通訊設(shè)備及家用電器的語(yǔ)音控制和內(nèi)容輸入。從目前的市場(chǎng)來(lái)看,嵌入式語(yǔ)音識(shí)別系統(tǒng)最大的市場(chǎng)主要是針對(duì)玩具、手機(jī)、車(chē)載GPS、MP3/MP4等。

3. 電話系統(tǒng)應(yīng)用

  語(yǔ)音識(shí)別技術(shù)應(yīng)用于企業(yè)自動(dòng)語(yǔ)音服務(wù),可以為企業(yè)提供一種智能化的并且相對(duì)安全的自動(dòng)服務(wù)方式。主要包括,企業(yè)的用戶服務(wù)中心(Call-Center),電話銀行,股票交易,電子商務(wù)等應(yīng)用領(lǐng)域,用戶可以在電話中進(jìn)行身份認(rèn)證及菜單流程的快捷選擇。

4.Web應(yīng)用

  Web應(yīng)用是把語(yǔ)音技術(shù)與Web應(yīng)用結(jié)合,例如語(yǔ)音瀏覽器、語(yǔ)音搜索引擎、網(wǎng)上語(yǔ)音聊天室及語(yǔ)音網(wǎng)游等。

5. 行業(yè)特殊應(yīng)用領(lǐng)域

  語(yǔ)音識(shí)別技術(shù)可以為有關(guān)部門(mén)提供應(yīng)用方案,幫助它們通過(guò)電話采集的語(yǔ)音進(jìn)行自動(dòng)的身份辨認(rèn),節(jié)省大量的人力,并大大提高工作效率和識(shí)別的成功率。

三、已開(kāi)始處于商用化的市場(chǎng)

1、特殊行業(yè)市場(chǎng)

  指國(guó)家安全、偵破等特殊領(lǐng)域,由于該市場(chǎng)專業(yè)性強(qiáng),進(jìn)入壁壘非常高,同業(yè)競(jìng)爭(zhēng)者非常少。

2、民用市場(chǎng)

  手機(jī)市場(chǎng):中國(guó)近兩年在通訊業(yè)發(fā)展迅猛,工業(yè)和信息化部2009年1季度發(fā)布的統(tǒng)計(jì)顯示,截至2月底,全國(guó)手機(jī)用戶已逼近6.6億,這意味著國(guó)內(nèi)平均每2人就擁有1部手機(jī)。手機(jī)行業(yè)日趨成熟,而愈演愈烈的同質(zhì)化競(jìng)爭(zhēng)必然促使商家在手機(jī)所提供的附加價(jià)值上翻花樣、做文章,以此來(lái)提高身價(jià)。隨著功能越來(lái)越強(qiáng)大的智能手機(jī)走紅市場(chǎng),語(yǔ)音識(shí)別技術(shù)更有了發(fā)展的空間。研究表明,智能手機(jī)市場(chǎng)將在今后的數(shù)年里繼續(xù)保持增長(zhǎng)勢(shì)頭,全球出貨量將從去年的1460萬(wàn)部增長(zhǎng)到2009年的1.25億部,2009年全球智能手機(jī)將增長(zhǎng)至占全球手機(jī)市場(chǎng)的16%,而據(jù)預(yù)測(cè)中國(guó)智能手機(jī)2010年銷售量將達(dá)5190萬(wàn)臺(tái)。按此數(shù)據(jù),以語(yǔ)音識(shí)別技術(shù)開(kāi)發(fā)包應(yīng)用平均收入為7元/臺(tái)計(jì)算,相關(guān)市場(chǎng)規(guī)模可達(dá)3.5億元/年。

  車(chē)載導(dǎo)航市場(chǎng):在國(guó)內(nèi)市場(chǎng)當(dāng)中,截止到2006年,中國(guó)汽車(chē)數(shù)量已經(jīng)超過(guò)3300萬(wàn)輛,其中10萬(wàn)元以下轎車(chē)占40%,10至30萬(wàn)元之間的轎車(chē)占40%,30萬(wàn)元以上的轎車(chē)大約占20%,但是車(chē)載GPS的安裝率卻僅為2%,遠(yuǎn)遠(yuǎn)低于日本59%、韓國(guó)40%、歐美25%的水平。根據(jù)計(jì)世資訊(CCW Research)最新研究報(bào)告《2007-2008年中國(guó)汽車(chē)電子市場(chǎng)發(fā)展趨勢(shì)研究報(bào)告》研究表明, 2007-2008年中國(guó)汽車(chē)GPS導(dǎo)航系統(tǒng)市場(chǎng)年增長(zhǎng)率將超過(guò)80%。在不考慮車(chē)輛市場(chǎng)中每年新增量的前提下,以此潛在市場(chǎng)規(guī)模預(yù)測(cè),GPS市場(chǎng)普及達(dá)到三者的平均水平41.3%,其中約70%的加裝語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)。按此數(shù)據(jù),以嵌入式語(yǔ)音識(shí)別芯片平均收入為40元/套計(jì)算,相關(guān)市場(chǎng)規(guī)模可達(dá)3.8億元。

  MP3/MP4:中國(guó)的MP3/MP4市場(chǎng)已趨成熟,整體產(chǎn)銷的增長(zhǎng)量也逐漸下滑,但是語(yǔ)音識(shí)別技術(shù)在此領(lǐng)域的滲透率卻微乎其微,仍有很大的增長(zhǎng)空間。據(jù)賽迪顧問(wèn)預(yù)計(jì),2009年中國(guó)MP3/MP4播放機(jī)市場(chǎng)銷售量將達(dá)到596.7萬(wàn)臺(tái),同比增長(zhǎng)4.9%,到2011年MP3/MP4播放機(jī)市場(chǎng)銷售量將達(dá)到650.2萬(wàn)臺(tái),2009-2011年中國(guó)MP3/MP4播放機(jī)市場(chǎng)銷量年均復(fù)合增長(zhǎng)率達(dá)到4.6%。以此為計(jì)算依據(jù)。按此數(shù)據(jù),以語(yǔ)音識(shí)別技術(shù)開(kāi)發(fā)包應(yīng)用平均收入為7元/臺(tái)計(jì)算,相關(guān)市場(chǎng)規(guī)模可達(dá)0.46億元/年。

  玩具市場(chǎng):中國(guó)是世界重要的玩具生產(chǎn)及出口地,75%的世界玩具產(chǎn)量均來(lái)自國(guó)內(nèi),僅2006年,玩具生產(chǎn)的產(chǎn)值便達(dá)到770億元,出口達(dá)到70.55億美元。中國(guó)有13億人口,自身又是玩具消費(fèi)的大市場(chǎng),據(jù)有關(guān)部門(mén)預(yù)測(cè),到2010年中國(guó)的玩具消費(fèi)額有望超過(guò)千億元人民幣。近來(lái)智能玩具發(fā)展勢(shì)頭看好,每年以40%左右的速度遞增,估計(jì)未來(lái)幾年間將占到整個(gè)玩具市場(chǎng)1/5左右的市場(chǎng)份額,這是一個(gè)數(shù)百億產(chǎn)值的市場(chǎng),語(yǔ)音識(shí)別智能玩具即便只占這個(gè)市場(chǎng)份額的1/3,每年也會(huì)有數(shù)十億到上百億的產(chǎn)值。由于玩具本身的生產(chǎn)成本較低,附加值不高,因此語(yǔ)音識(shí)別智能芯片將至少占到其中一半甚至3/4的市值。

  行業(yè)應(yīng)用市場(chǎng):除了以上個(gè)人消費(fèi)品市場(chǎng)以外,利用我們的核心軟件,生產(chǎn)出語(yǔ)音平臺(tái)銷售給二次開(kāi)發(fā)商,最終產(chǎn)品可以進(jìn)入電信、銀行、網(wǎng)絡(luò)等客戶,具有不可估量的擴(kuò)展市場(chǎng)容量。

四、行業(yè)主要品牌

國(guó)際品牌

  Nuance:世界上最大的專業(yè)的語(yǔ)音識(shí)別軟件提供商,提供語(yǔ)音識(shí)別、語(yǔ)言理解和聲紋鑒定等一系列軟件,其產(chǎn)品被應(yīng)用于旅行預(yù)定、股票交易和企業(yè)門(mén)戶等眾多領(lǐng)域。公司在世界各地都設(shè)有分部或者合作伙伴,亞太總部設(shè)在香港,中國(guó)大陸地區(qū)的代理商為科大訊飛公司。Nuance的具體產(chǎn)品包括語(yǔ)音識(shí)別引擎,聲紋鑒定軟件,TTS引擎,SpeechObject組件(用于VXML以增強(qiáng)其功能),語(yǔ)音瀏覽器等等。

  IBM:IBM公司在語(yǔ)音識(shí)別領(lǐng)域有很長(zhǎng)的研究歷史,其著名的產(chǎn)品是ViaVoice。如今,IBM公司在這個(gè)領(lǐng)域中的努力主要體現(xiàn)在Voice Server及其SDK上,該服務(wù)器建立在VXML基礎(chǔ)上以幫助開(kāi)發(fā)商建立廣泛的電話語(yǔ)音應(yīng)用。由于擁有多元化的產(chǎn)業(yè)和雄厚的資金實(shí)力,它作為語(yǔ)音識(shí)別市場(chǎng)的先驅(qū),通過(guò)花費(fèi)大量資金培育市場(chǎng),讓人們知道了什么是語(yǔ)音識(shí)別技術(shù)。

  Microsoft:微軟作為世界上最大的軟件提供商,一直視語(yǔ)音識(shí)別技術(shù)為其優(yōu)先研究項(xiàng)目,也適時(shí)地推出過(guò)許多產(chǎn)品,近年推出的Windows Vista系統(tǒng)已經(jīng)內(nèi)嵌了語(yǔ)音控制軟件。微軟強(qiáng)大的品牌效應(yīng)、龐大的研究機(jī)構(gòu)、優(yōu)秀的市場(chǎng)整合能力使得它成為業(yè)界強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手。

  國(guó)內(nèi)品牌有科大訊飛(以語(yǔ)音合成技術(shù)為主,當(dāng)初的戰(zhàn)略投資者獲得了數(shù)十倍的回報(bào))等少數(shù)幾家。

五、項(xiàng)目公司的優(yōu)勢(shì)

  項(xiàng)目公司是國(guó)內(nèi)專業(yè)從事語(yǔ)音識(shí)別技術(shù)研究、軟件開(kāi)發(fā)和銷售的高科技公司。經(jīng)過(guò)多年的努力,公司發(fā)明了擁有完全自主知識(shí)產(chǎn)權(quán)的語(yǔ)音識(shí)別核心技術(shù),并以此內(nèi)核為基礎(chǔ),由公司的技術(shù)團(tuán)隊(duì)開(kāi)發(fā)出專用的聲紋識(shí)別系統(tǒng)、語(yǔ)音關(guān)鍵詞識(shí)別系統(tǒng)和語(yǔ)音搜索引擎,將語(yǔ)音識(shí)別技術(shù)推廣到市場(chǎng)的同時(shí),也獲得了市場(chǎng)的認(rèn)可,在該專用領(lǐng)域占領(lǐng)了相當(dāng)?shù)氖袌?chǎng)份額。公司自成立以來(lái),一直致力于從事聲紋識(shí)別技術(shù)及產(chǎn)品的研究、開(kāi)發(fā)和銷售,利用其在身份識(shí)別上獨(dú)有的特性,深耕挖掘其使用價(jià)值。公司的聲紋識(shí)別技術(shù)現(xiàn)包括ATD聲紋識(shí)別技術(shù)和TI聲紋識(shí)別技術(shù)。開(kāi)集區(qū)間技術(shù)實(shí)用化測(cè)試,以行業(yè)標(biāo)準(zhǔn)相等錯(cuò)誤率(EER指標(biāo))測(cè)試出其結(jié)果為0.6%,識(shí)別性能超過(guò)了指紋識(shí)別技術(shù)的識(shí)別水平,成為業(yè)內(nèi)唯一一家實(shí)現(xiàn)利用聲紋識(shí)別技術(shù)作為身份識(shí)別的唯一依據(jù),而非輔助依據(jù)的公司。公司正準(zhǔn)備啟動(dòng)下一步的發(fā)展計(jì)劃,在已有產(chǎn)品的基礎(chǔ)之上,利用在語(yǔ)意識(shí)別技術(shù)上的新突破,開(kāi)發(fā)針對(duì)于各種移動(dòng)設(shè)備的語(yǔ)音識(shí)別軟件開(kāi)發(fā)包、可進(jìn)行二次開(kāi)發(fā)的軟件工具包,以及通用型的語(yǔ)音識(shí)別芯片,將語(yǔ)音識(shí)別技術(shù)與具有更廣泛市場(chǎng)基礎(chǔ)的領(lǐng)域相結(jié)合。

項(xiàng)目公司技術(shù)優(yōu)勢(shì)與特色:
  1. 仿生性——模擬人對(duì)語(yǔ)音和說(shuō)話人的聽(tīng)辨功能,而不是使用統(tǒng)計(jì)的方法。

  2. 可學(xué)習(xí)性——與人相類似,識(shí)別能力和準(zhǔn)確性隨著樣本量的增加而提高。

  3. 實(shí)時(shí)性——對(duì)瞬間語(yǔ)音信號(hào)的感知,而不是對(duì)固定長(zhǎng)度的語(yǔ)音信號(hào)進(jìn)行處理。

  4. 強(qiáng)魯棒性〔robustness〕——在充分訓(xùn)練的情況下,識(shí)別能力具有極強(qiáng)的穩(wěn)定性和可靠性。

  5. 識(shí)別速度快——識(shí)別過(guò)程是一種快速的并行過(guò)程,實(shí)際上是一種輸入到輸出的映射,不需要在一個(gè)龐大的語(yǔ)音庫(kù)中進(jìn)行搜索。

  6. 強(qiáng)分辨能力——神經(jīng)網(wǎng)絡(luò)的非線性映射,比概率方法有更強(qiáng)的分辨能力;平均識(shí)別分辨度已接近或超過(guò)人耳分辨度。

  7. 開(kāi)集識(shí)別——建立在高識(shí)別分辨度及無(wú)關(guān)性訓(xùn)練基礎(chǔ)上。

博銳管理在線


相關(guān)鏈接:
3G時(shí)代語(yǔ)音識(shí)別成本仍然是“攔路虎” 2009-06-10
自動(dòng)語(yǔ)音識(shí)別決定呼叫中心未來(lái) 2009-06-02
紫金礦業(yè)視頻會(huì)議系統(tǒng)備份需求 2009-05-21
吳曉如:語(yǔ)音技術(shù)助力更智能更安全的新一代呼叫中心 2009-04-22
VoiceXML論壇官方認(rèn)證平臺(tái) 2008-12-10
库尔勒市| 项城市| 杭州市| 长泰县| 囊谦县| 兖州市| 荣成市| 新沂市| 修武县| 长泰县| 济南市| 郯城县| 喀喇| 惠州市| 巴彦淖尔市| 宝应县| 云阳县| 舒城县| 鹤岗市| 饶平县| 陇西县| 崇明县| 江达县| 永新县| 曲水县| 应城市| 当阳市| 保靖县| 方正县| 九台市| 北川| 莒南县| 仙桃市| 乌鲁木齐县| 买车| 弥勒县| 贵阳市| 南郑县| 丘北县| 鄂托克前旗| 甘孜|