語音識別:抗噪音能力有待加強
王向東 欒煥博 林守勛 錢躍良 2006/08/11
語音識別已經成為一個面向多種應用、滿足多種需求的龐大體系,這種技術的廣泛應用推動了語音識別評測的誕生,而評測反過來又推動了語音識別技術的進步。 文字正確率 = 1 - 文字錯誤率
表中的最高正確率基本可以代表該分項的最高水平,前三名的正確率均值可以一定程度上反映該分項的平均水平,而前三名正確率的方差可以反映該分項中各系統(tǒng)的性能差異程度。
從表中可以看到,桌面連續(xù)語音識別分項中,漢語的識別效果遠遠好于英語(文字正確率最多相差20個百分點)。其原因顯然在于國內對漢語語音識別的研究比英語多而且深入。另外,英語訓練語料的相對缺乏,也是一個重要原因。
在采用了語法限制的語義槽識別任務和槽識別正確率作為評測指標后,電話連續(xù)語音的槽識別正確率較低。事實上,由于電話語音的錄制環(huán)境為辦公室環(huán)境,其噪音比桌面語音要小得多,所以正確率較低的原因主要在于對語法的處理和槽識別正確率較低。
嵌入式設備命令詞識別的正確率與桌面語音字正確率大致相當。一方面,連續(xù)語音識別要比孤立詞識別困難,另一方面,嵌入式設備的語音通道和計算資源都比PC差得多,從結果可以看出,這兩方面的因素基本抵消。
從各分項前三名的正確率方差可以看出,漢語桌面連續(xù)語音識別和嵌入式設備命令詞分項中各系統(tǒng)的性能差異較小,而英語桌面連續(xù)語音識別,特別是一倍實時任務中各系統(tǒng)性能差異較大。這是因為當前語音識別的研究重點在于前者,研究者較多,研究也比較深入,而英語的識別相對來說研究者較少。
3. 影響系統(tǒng)識別性能的因素
從上面的識別結果評價可以看出,對真實噪音環(huán)境下錄制的語音數據,當前的語音識別系統(tǒng)識別正確率偏低,還很難達到實用。
從語音識別產生以來,噪音一直是影響識別效果的主要因素。為了分析噪音對識別的影響,將評測數據按信噪比(SNR)分段,從參評系統(tǒng)選取三個,分別計算其在各段內的識別正確率,可以看出,識別正確率基本上隨著SNR的增大而提高,SNR在20dB以上的數據正確率比SNR在5~10dB的數據高近30個百分點。對桌面連續(xù)語音識別的其他分項和嵌入式命令詞識別的結果分析也得到類似的結果。
對于電話連續(xù)語音識別來說,由于錄制環(huán)境是辦公室真實環(huán)境,因此噪音并不是影響性能的主要因素。電話連續(xù)語音識別分為5個子領域,每個子領域各有一套語法。評測句子由語法生成的有效成分在前后加上任意長的填充詞(filler)構成,如語法生成的句子為“從天安門到中關村怎么坐公交車”,而實際錄制的句子是“你好,請問從天安門到中關村怎么坐公交車,可以查到嗎?”,其中的“你好,請問”和“可以查到嗎”就是filler。由分析可以發(fā)現,不同領域內的槽識別正確率相差很大。這主要有兩個原因,一是不同領域的語法復雜度不同,二是不同領域內有filler的句子所占比例不同。為了進一步衡量filler對識別的影響,選取三個識別系統(tǒng),將有filler的句子和沒有filler的句子分別計算識別率,統(tǒng)計結果如圖2所示。從圖中可以看出,filler對識別的影響是相當大的,無filler的句子比有filler的句子識別正確率可以高幾十個百分點。
語音識別應用促進技術發(fā)展 2006-07-31 |
識別語音的幾種依據 2006-07-31 |
語音識別技術突飛猛進 終有一天超過人? 2006-07-20 |
語音識別標準之痛 2006-06-19 |
你好!新語音識別時代 2006-06-01 |