首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品



華鎮(zhèn)電子嵌入式語(yǔ)音識(shí)別系統(tǒng)Wanson ASR Chip1.0

2008/02/27

1、Wanson ASR Chip1.0 概述

  Wanson ASR Chip1.0 是專門(mén)為微小芯片上而開(kāi)發(fā)的嵌入式語(yǔ)音識(shí)別引擎。 隨著語(yǔ)音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率和識(shí)別速度的提高以及在特定環(huán)境下對(duì)硬件條件的要求越來(lái)越低,將基于微小芯片的語(yǔ)音識(shí)別技術(shù)嵌入消費(fèi)類電子產(chǎn)品中越來(lái)越成為現(xiàn)實(shí)。隨著消費(fèi)類電子產(chǎn)品性能變得越來(lái)越混雜功能越來(lái)越強(qiáng)勁,語(yǔ)音識(shí) 別科技就可以使消費(fèi)者可以更方便、更直觀地使用這些產(chǎn)品。并且,在使用這些 產(chǎn)品的時(shí)候不會(huì)伴隨著一系列的按鍵和提示音,而是實(shí)現(xiàn)消費(fèi)者和產(chǎn)品間的直接對(duì)話。嵌入式語(yǔ)音識(shí)別在消費(fèi)類電子產(chǎn)品市場(chǎng)應(yīng)用上大約分成三類:手提設(shè)備,游戲/ 玩具以及汽車。手提設(shè)備中,智能電話Smartphone的發(fā)展驅(qū)動(dòng)著這類市場(chǎng)的蓬 勃興起。在Smartphone中,語(yǔ)音撥號(hào)已經(jīng)成為一個(gè)普遍功能,幾乎每一家手機(jī) 芯片供應(yīng)商都想要提供內(nèi)嵌語(yǔ)音撥號(hào)功能的手機(jī)。但是直到最近,這些嵌入式語(yǔ) 音識(shí)別都只能限于話者相關(guān),小詞匯量的。

  我們已經(jīng)開(kāi)發(fā)出能安裝在智能手機(jī)Smartphone上的連續(xù)語(yǔ)音及短語(yǔ)語(yǔ)音識(shí)別軟 件,可以為用戶提供語(yǔ)音撥號(hào)和聲音命令控制等功能。同時(shí),我們正在開(kāi)發(fā)基于 更小封裝、微小芯片上的話者獨(dú)立,可變?cè)~匯量的語(yǔ)音識(shí)別軟件。這些軟件可以 作用在智能手機(jī)Smartphone,CDMA/2.5G/3.5G 芯片,智能玩具以及汽車的導(dǎo)航 系統(tǒng)上。我們開(kāi)發(fā)的嵌入式語(yǔ)音識(shí)別軟件使用了改進(jìn)的Hidden Markov Model(HMM)聲學(xué)模型,同時(shí)基于移動(dòng)設(shè)備上的有限CPU 資源和存儲(chǔ)空間,我們開(kāi)發(fā)出 了快速的語(yǔ)音參數(shù)提取方法和高效識(shí)別搜索算法。該語(yǔ)音識(shí)別軟件兼顧到識(shí)別速 度和識(shí)別準(zhǔn)確率的平衡,能運(yùn)用于一系列從語(yǔ)音命令控制,語(yǔ)音人名撥號(hào)到語(yǔ)音 翻譯,語(yǔ)言學(xué)習(xí)的實(shí)際應(yīng)用中。 將嵌入式語(yǔ)音識(shí)別軟件應(yīng)用到消費(fèi)類電子產(chǎn)品中并投入市場(chǎng)有兩個(gè)主導(dǎo)因素:花 費(fèi)成本和投入市場(chǎng)的時(shí)間。我們所開(kāi)發(fā)的語(yǔ)音識(shí)別軟件(基于Smartphone 的以 及基于微小芯片上的)提供了優(yōu)異的性能,跟多家芯片和手機(jī)制造商接口的標(biāo)準(zhǔn) 界面以及一系列開(kāi)發(fā)工具兼容,使得我們的OEM 伙伴能快速地推出他們的新產(chǎn)品。

2.Wanson ASR Chip1.0 系統(tǒng)描述

  2.1 系統(tǒng)框圖及概述

  Wanson ASR Chip1.0 是一套功能強(qiáng)大,具有全部開(kāi)發(fā)工具的語(yǔ)音識(shí)別系統(tǒng),使 開(kāi)發(fā)者可以方便而快速地開(kāi)發(fā)出一系列不同的應(yīng)用。Wanson ASR Chip1.0 提供 的特性包括有:

  上圖示為Wanson ASR Chip1.0 的系統(tǒng)框圖。如圖所示,由系統(tǒng)所構(gòu)筑的語(yǔ)音識(shí) 別應(yīng)用程序和四部分相結(jié)合。對(duì)語(yǔ)音識(shí)別而言,將接收到的語(yǔ)音文件包通過(guò)錄音 接口傳給語(yǔ)音識(shí)別引擎。該引擎在執(zhí)行語(yǔ)音識(shí)別任務(wù)時(shí),根據(jù)系統(tǒng)指令從資源文 件中調(diào)用所需要的語(yǔ)言模型,聲學(xué)模型,字典等資源。當(dāng)語(yǔ)音識(shí)別任務(wù)完成后, 系統(tǒng)將識(shí)別出來(lái)的結(jié)果放在系統(tǒng)隊(duì)列中,供下級(jí)設(shè)備讀取。

  2.2 應(yīng)用程序開(kāi)發(fā)

  開(kāi)發(fā)具有嵌入式語(yǔ)音識(shí)別功能的應(yīng)用程序大約需要以下的步驟: 3.硬件環(huán)境

  Wanson ASR Chip1.0 是模塊式的系統(tǒng)體系,單處理器處理所有模塊程序的運(yùn)行。 下圖示出系統(tǒng)在運(yùn)行時(shí)主要硬件元素的工作流程。
  前端模塊

  前端模塊主要包括語(yǔ)音信號(hào)處理和參數(shù)提取,將原始的語(yǔ)音文件轉(zhuǎn)換成語(yǔ)音識(shí)別需要的語(yǔ)音參數(shù)序列。在某些特定的情況下,前端模塊還需要進(jìn)行噪聲處理和聲 道歸一化處理以提高系統(tǒng)的魯棒性(Robust ability)。前端語(yǔ)音信號(hào)處理和參數(shù) 提取需要大量的數(shù)值計(jì)算,CPU 的運(yùn)算能力以及RAM 的速度會(huì)對(duì)響應(yīng)速度有很大影響。

  后端模塊

  后端模塊是語(yǔ)音識(shí)別的核心部分,完成從語(yǔ)音到文本的轉(zhuǎn)換。該部分包括:語(yǔ)法生成、調(diào)入聲學(xué)和語(yǔ)言模型以及發(fā)音字典、路徑搜索等。該部分需要大量的概率和數(shù)值計(jì)算,并且需要多次訪問(wèn)和調(diào)用聲學(xué)模型和發(fā)音字典等資源文件。一般情 況下,聲學(xué)模型和字典等資源將預(yù)先調(diào)入ROM 和閃存(Flash Memory)。 影響語(yǔ)音識(shí)別響應(yīng)速度的因素主要有:CPU 性能,Memory 的存取速度以及CPU 是否過(guò)載等等。對(duì)于CPU 的運(yùn)算能力,一般而言,在不同的系統(tǒng)配置下,需要 做到實(shí)時(shí)識(shí)別并且不影響其他任務(wù)執(zhí)行所需要的最低配置為6MIPS (取決于識(shí) 別詞匯量大小和硬件配置等)。

  語(yǔ)音合成

  語(yǔ)音合成部分完成從文本到音的轉(zhuǎn)換,主要是將語(yǔ)音識(shí)別輸出的文本轉(zhuǎn)換成語(yǔ)音播報(bào)給用戶。在某些特定的情況下,例如在開(kāi)車的時(shí)候,用戶可以方便的聽(tīng)到識(shí)別結(jié)果而不需要去看。

  RAM和ROM需求

  對(duì)于嵌入式的語(yǔ)音識(shí)別系統(tǒng),RAM 和ROM 的大小需求是由應(yīng)用系統(tǒng)的功能設(shè) 計(jì)所決定的。同時(shí),不同的RAM 和ROM 大小又影響著識(shí)別的準(zhǔn)確率和響應(yīng)速 度。一般情況下,較大的RAM 和ROM 存儲(chǔ)空間和快速的RAM和ROM 速度更 有利于識(shí)別速度和識(shí)別準(zhǔn)確率的提高。更多的情況下,在實(shí)際應(yīng)用中,考慮到性 能價(jià)格比,一般會(huì)選擇適當(dāng)?shù)腞AM 和ROM 尺寸以達(dá)到速度和識(shí)別率的平衡。 如下表所示:

  表中所列的RAM和ROM的空間需求是一個(gè)近似數(shù)字

4.功能及特性

  Wanson ASR Chip1.0 嵌入式語(yǔ)音識(shí)別系統(tǒng)提供了一系列獨(dú)到的功能和特性,以 適應(yīng)不同的開(kāi)發(fā)廠商的需求。

  話者獨(dú)立 該軟件無(wú)需事先對(duì)用戶的語(yǔ)音訓(xùn)練,任何人拿起來(lái)均可使用;

  獨(dú)特的口音的處理技術(shù) 用戶不用說(shuō)播音員般標(biāo)準(zhǔn)的普通話,全國(guó)各地帶有口音的用戶亦可以毫無(wú)問(wèn)題得順暢使用該系統(tǒng);

  高識(shí)別率 在一定的硬件環(huán)境下,一次性載入詞匯量達(dá)到1000 中文詞條時(shí),平均準(zhǔn)確率達(dá) 到95%以上,并且實(shí)時(shí)識(shí)別;

  可移植的代碼 軟件采用標(biāo)準(zhǔn)C 書(shū)寫(xiě)核心算法,使得該軟件能很快地移植到其他操作系統(tǒng)和處理器上;

  小封裝,低系統(tǒng)配置 如前所述,Wanson ASR Chip1.0 對(duì)系統(tǒng)硬件資源要求很少,因此可以適用于一 系列消費(fèi)類電子產(chǎn)品上,例如:   在線更改語(yǔ)音資源 用戶在每次增加/刪減/更改詞匯集合后,無(wú)需關(guān)閉和重新啟動(dòng)應(yīng)用程序,系統(tǒng)可以即時(shí)在線更新系統(tǒng)資源,使用戶可以馬上使用;

  環(huán)境噪音 該系統(tǒng)帶有噪音消除技術(shù),對(duì)于應(yīng)用環(huán)境噪音一定范圍之內(nèi),仍可保證高識(shí)別率;

  動(dòng)態(tài)詞匯庫(kù) 適用在不同的硬件條件下,詞匯集合可以從零到1000 詞條,采用系統(tǒng)軟件開(kāi)發(fā) 包,可以方便創(chuàng)建新的詞匯以適用于不同的應(yīng)用(例如:命令控制集,地址簿, 人名等等)。

CTI論壇編輯



相關(guān)鏈接:
基立訊jTalk語(yǔ)音通信平臺(tái)產(chǎn)品介紹 2007-11-29
Nuance 8.5語(yǔ)音識(shí)別產(chǎn)品 2007-09-05
VBVoice使AdGeo能夠定制呼叫跟蹤和報(bào)告的解決方案 2007-04-26
Automated采用VBVoice快速開(kāi)發(fā)語(yǔ)音圖書(shū)館編目系統(tǒng) 2007-04-09
捷通華聲語(yǔ)音電話本業(yè)務(wù)解決方案 2006-12-26

分類信息:     

隆昌县| 山丹县| 平江县| 文化| 苍梧县| 巴林左旗| 宿迁市| 鸡东县| 靖边县| 惠安县| 汾阳市| 老河口市| 湟源县| 忻城县| 伊宁市| 启东市| 仙居县| 大安市| 东辽县| 乌兰察布市| 靖远县| 兴山县| 瑞昌市| 安福县| 台州市| 涟水县| 南木林县| 镇赉县| 抚州市| 拉萨市| 扶绥县| 丹江口市| 郑州市| 彭山县| 建瓯市| 涞水县| 嘉黎县| 耿马| 新巴尔虎左旗| 沙湾县| 宝应县|