語音識(shí)別:抗噪音能力有待加強(qiáng)
王向東 欒煥博 林守勛 錢躍良 2006/08/11
語音識(shí)別已經(jīng)成為一個(gè)面向多種應(yīng)用、滿足多種需求的龐大體系,這種技術(shù)的廣泛應(yīng)用推動(dòng)了語音識(shí)別評(píng)測(cè)的誕生,而評(píng)測(cè)反過來又推動(dòng)了語音識(shí)別技術(shù)的進(jìn)步。 文字正確率 = 1 - 文字錯(cuò)誤率
表中的最高正確率基本可以代表該分項(xiàng)的最高水平,前三名的正確率均值可以一定程度上反映該分項(xiàng)的平均水平,而前三名正確率的方差可以反映該分項(xiàng)中各系統(tǒng)的性能差異程度。
從表中可以看到,桌面連續(xù)語音識(shí)別分項(xiàng)中,漢語的識(shí)別效果遠(yuǎn)遠(yuǎn)好于英語(文字正確率最多相差20個(gè)百分點(diǎn))。其原因顯然在于國(guó)內(nèi)對(duì)漢語語音識(shí)別的研究比英語多而且深入。另外,英語訓(xùn)練語料的相對(duì)缺乏,也是一個(gè)重要原因。
在采用了語法限制的語義槽識(shí)別任務(wù)和槽識(shí)別正確率作為評(píng)測(cè)指標(biāo)后,電話連續(xù)語音的槽識(shí)別正確率較低。事實(shí)上,由于電話語音的錄制環(huán)境為辦公室環(huán)境,其噪音比桌面語音要小得多,所以正確率較低的原因主要在于對(duì)語法的處理和槽識(shí)別正確率較低。
嵌入式設(shè)備命令詞識(shí)別的正確率與桌面語音字正確率大致相當(dāng)。一方面,連續(xù)語音識(shí)別要比孤立詞識(shí)別困難,另一方面,嵌入式設(shè)備的語音通道和計(jì)算資源都比PC差得多,從結(jié)果可以看出,這兩方面的因素基本抵消。
從各分項(xiàng)前三名的正確率方差可以看出,漢語桌面連續(xù)語音識(shí)別和嵌入式設(shè)備命令詞分項(xiàng)中各系統(tǒng)的性能差異較小,而英語桌面連續(xù)語音識(shí)別,特別是一倍實(shí)時(shí)任務(wù)中各系統(tǒng)性能差異較大。這是因?yàn)楫?dāng)前語音識(shí)別的研究重點(diǎn)在于前者,研究者較多,研究也比較深入,而英語的識(shí)別相對(duì)來說研究者較少。
3. 影響系統(tǒng)識(shí)別性能的因素
從上面的識(shí)別結(jié)果評(píng)價(jià)可以看出,對(duì)真實(shí)噪音環(huán)境下錄制的語音數(shù)據(jù),當(dāng)前的語音識(shí)別系統(tǒng)識(shí)別正確率偏低,還很難達(dá)到實(shí)用。
從語音識(shí)別產(chǎn)生以來,噪音一直是影響識(shí)別效果的主要因素。為了分析噪音對(duì)識(shí)別的影響,將評(píng)測(cè)數(shù)據(jù)按信噪比(SNR)分段,從參評(píng)系統(tǒng)選取三個(gè),分別計(jì)算其在各段內(nèi)的識(shí)別正確率,可以看出,識(shí)別正確率基本上隨著SNR的增大而提高,SNR在20dB以上的數(shù)據(jù)正確率比SNR在5~10dB的數(shù)據(jù)高近30個(gè)百分點(diǎn)。對(duì)桌面連續(xù)語音識(shí)別的其他分項(xiàng)和嵌入式命令詞識(shí)別的結(jié)果分析也得到類似的結(jié)果。
對(duì)于電話連續(xù)語音識(shí)別來說,由于錄制環(huán)境是辦公室真實(shí)環(huán)境,因此噪音并不是影響性能的主要因素。電話連續(xù)語音識(shí)別分為5個(gè)子領(lǐng)域,每個(gè)子領(lǐng)域各有一套語法。評(píng)測(cè)句子由語法生成的有效成分在前后加上任意長(zhǎng)的填充詞(filler)構(gòu)成,如語法生成的句子為“從天安門到中關(guān)村怎么坐公交車”,而實(shí)際錄制的句子是“你好,請(qǐng)問從天安門到中關(guān)村怎么坐公交車,可以查到嗎?”,其中的“你好,請(qǐng)問”和“可以查到嗎”就是filler。由分析可以發(fā)現(xiàn),不同領(lǐng)域內(nèi)的槽識(shí)別正確率相差很大。這主要有兩個(gè)原因,一是不同領(lǐng)域的語法復(fù)雜度不同,二是不同領(lǐng)域內(nèi)有filler的句子所占比例不同。為了進(jìn)一步衡量filler對(duì)識(shí)別的影響,選取三個(gè)識(shí)別系統(tǒng),將有filler的句子和沒有filler的句子分別計(jì)算識(shí)別率,統(tǒng)計(jì)結(jié)果如圖2所示。從圖中可以看出,filler對(duì)識(shí)別的影響是相當(dāng)大的,無filler的句子比有filler的句子識(shí)別正確率可以高幾十個(gè)百分點(diǎn)。
計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)
語音識(shí)別應(yīng)用促進(jìn)技術(shù)發(fā)展 2006-07-31 |
識(shí)別語音的幾種依據(jù) 2006-07-31 |
語音識(shí)別技術(shù)突飛猛進(jìn) 終有一天超過人? 2006-07-20 |
語音識(shí)別標(biāo)準(zhǔn)之痛 2006-06-19 |
你好!新語音識(shí)別時(shí)代 2006-06-01 |