中文字幕在线视频第一页,黄色毛片在线看,日本爱爱网站,亚洲系列中文字幕一区二区

安徽中科大訊飛信息科技有限公司總裁劉慶峰專訪

2004-09-13 14:31:00   作者:   來源:CTI論壇   評論:0  點擊:


<  劉慶峰博士,中文語音產(chǎn)業(yè)的知名人物。1999年,作為學(xué)生的他傳奇般地創(chuàng)立了科大訊飛,當(dāng)時一度成為大學(xué)生創(chuàng)業(yè)的典范,在此后的5年時間里,使中文語音產(chǎn)業(yè)成為國人的天下,在語音合成(Text To Speech)方面不斷推陳出新,創(chuàng)立了中文語音技術(shù)發(fā)展的一個又一個里程碑。科大訊飛也已從幾個學(xué)生創(chuàng)始的小公司成長為規(guī)模龐大的中文語音技術(shù)開發(fā)基地……

  作者:劉總,您看起來非常年輕。
  劉:我73年出生的,31歲。

  作者:我們都聽說您在這行業(yè)是年輕有為,能簡單地介紹一下您大概的創(chuàng)業(yè)經(jīng)歷嗎?

  劉:我90年進中國科技大學(xué),學(xué)的是電子工程系,因為成績比較好,92年就進了中國科技大學(xué)和國家計算機研究開發(fā)中心聯(lián)合設(shè)立的人機語音通訊實驗室。95年本科畢業(yè),保送上研究生,那時就開始作為語音合成這個項目的負責(zé)人了。我在本科畢業(yè)論文階段,就在做一個語音合成的合成器,模擬人發(fā)音的整個過程,用數(shù)字信號技術(shù)來處理這個模型。這個是我自己獨立設(shè)計的,效果挺不錯,參加了863評比,當(dāng)時引起了較大的轟動。
95年做語音技術(shù)用參數(shù)合成,做到了一般的波型合成的音質(zhì),效果還是很好的。我在那時就帶些人正式開始承擔(dān)實驗室所參加的測試。我在科大本科時成績很好,在與數(shù)學(xué)、物理相關(guān)的學(xué)科中幾乎都是第一名,又是班長,本來是想出國的,但因為對語音合成技術(shù)有濃厚的興趣,就留下來讀了研究生。98年研究生畢業(yè),當(dāng)時科學(xué)院系統(tǒng)最高的榮譽-中國科學(xué)院長獎金特別獎給了我。

  作者:當(dāng)時這個獎金是發(fā)給研究生的?

  劉:是的,是發(fā)給研究生里面學(xué)習(xí)和科研都做得最好的學(xué)生。后來98年參加國際會議時也是,在新加坡開的首屆國際漢語語音研討會,我得了唯一學(xué)生最佳論文獎。

  作者:那劉總在讀研究生的時候有沒有想過要出國去發(fā)展,據(jù)我所知,中科大的學(xué)生還是相對比較熱衷于出國深造的?

  劉:我當(dāng)時出國基礎(chǔ)很好,很多大學(xué)都要我去。可后來研究生畢業(yè)之所以會放棄出國,最主要還是看到了產(chǎn)業(yè)化的前景。如果要出國有兩個選擇,要么去美國幾個做語音比較好的大學(xué),要么到東京大學(xué),東京大學(xué)做語音是很棒的。無論去哪里其實都可能會跟我原來的實驗室形成競爭,這是讓我放心不下的一個很大的因素。第二個就是,科大當(dāng)時那種開放式的研發(fā)體系,不拘一格的研究團隊組合,可以把我們當(dāng)時做了一半的想法更快地落實下去,因為我們在98年863評比時是第一名,有很好的評價,而且那時就明確地知道還有很大的余地在后面。第三就是產(chǎn)業(yè)化前景。我記得從96年開始,863提倡'頂天立地','頂天'就是核心技術(shù)要做到國際領(lǐng)先,'立地'就是要立足于市場,能夠產(chǎn)業(yè)化。當(dāng)時我們已經(jīng)開始在對外開展產(chǎn)業(yè)化合作了,當(dāng)時到華為出差一個多星期,把我們的語音技術(shù)和他們的系統(tǒng)融合,有很大的感觸;98年給福建工商系統(tǒng)做查詢系統(tǒng),在把技術(shù)產(chǎn)品產(chǎn)業(yè)化方面得到了很多啟發(fā)。

  我原來想只做技術(shù),對管理、財務(wù)、市場、銷售這些事情一點興趣也沒有。我當(dāng)時的口號是'要把科大的語音實驗室做成中國的貝爾實驗室',把科大一批非常優(yōu)秀的同學(xué)都留下來了。開始只有我一個人,98年到99年留下了十幾個人,我做總工組建研發(fā)隊伍。那時科大BBS站上的六個版主在訊飛,包括黑客版版主、編程版、還有科大BBS站長。我們的創(chuàng)業(yè)團隊,真的是留下了這么一幫很優(yōu)秀、很有沖勁、有激情的人。

  到了98年底感覺到,一個新的過程在被大眾接受時需要一個很長的過程,這個過程中如果你的產(chǎn)品方向確定不好就是問題。

  語言是人們溝通和獲取信息最自然便捷的手段,不管是教育、交通、銀行、電信等等,都能用到語音,如果你每一塊都去做,就象狗熊掰玉米一樣,每樣都沒有著落。我們在語言學(xué)研發(fā)的進展還是比較快,參加火炬計劃國家十年展,我們做的是'天音話王',就是人和電腦對話,在曙光2000CPU、東軟醫(yī)療上的應(yīng)用,都是非常典型的成果。感覺技術(shù)上做得是挺不錯,又拿了軟博會的金獎,但是產(chǎn)業(yè)化做的非常累,根本推不出來,到年底時連發(fā)工資的錢都沒有了。所以到1999年大家都說你一定要出來挑頭,我們給自己干,我也覺得不這么做不行了。最主要是對產(chǎn)業(yè)本身的最前端性的看法你要有,我們提倡的科大訊飛走的道路是創(chuàng)新型的文化。也就是說你要比用戶更了解這個技術(shù)下一步可能達到什么,哪些東西是有可能做到的;這些可能做到的東西中有哪些是用戶可能會接受的,是能夠打動消費者的。所以實際上是開發(fā)全新的市場,而不是在現(xiàn)有的市場上去增強。這個就是對技術(shù)趨勢的把握能力和對哪些技術(shù)能打動消費者走向市場的把握能力,這兩塊結(jié)合起來是特別重要的。而結(jié)合起來以后,你教育市場需要花費巨大的時間和精力,另外在全新的產(chǎn)品研發(fā)過程中的不斷摸索和完善,使得你不可能同時做非常多的事情,一定要有很清晰的脈絡(luò)和戰(zhàn)略。那時我就感覺到,如果由不是非常懂行的人來領(lǐng)導(dǎo),不論此人多聰明、多有想法,都是很難的。于是,我們就成立了自己的公司--科大訊飛。

  到99年底選了三家投資方,三百萬的公司就變成了估價五千萬。

  有錢以后首先是把國家863支持了這么多年的語言所、聲學(xué)所這兩塊并起來,請所里我們認為跟我們最有互補、做開發(fā)最好的專家成立聯(lián)合實驗室。

  這么做在當(dāng)時也非常符合他們的要求。這兩個機構(gòu)本來要自己做完整的系統(tǒng),面向市場做銷售,很累。而且他們的研究生畢業(yè)都走了,98、99年微軟、IBM在中國設(shè)立研發(fā)中心,把這些機構(gòu)里的跟語音相關(guān)的研究室、實驗室連鍋端走,人都挖走。而我們提供了一個安全的機制,讓他們能安心地從事他們所擅長的研究,我們提供研究經(jīng)費,還可以派人協(xié)助他們從事的研究。從基礎(chǔ)上做了有效的整合,使得我們下一步的研發(fā)能夠更快。

  2000年底剛?cè)谕曩Y,而我們的收入很少,壓力真的很大。股東方面是要看效益的,希望我們能做些掙錢的事,我們頂住了,覺得要做訊飛該做的事情。那正是意氣風(fēng)發(fā)的時候,我們的人也不多,在安徽本地要做一些信息化建設(shè)的項目、系統(tǒng)集成就能掙錢,但我們當(dāng)時沒做,覺得這不是一個方向。我們覺得關(guān)鍵是要有核心技術(shù)和核心產(chǎn)品的突破,我們就提出了'語音平臺戰(zhàn)略'。象Intel提供CPU,大家做各種服務(wù)器和各個領(lǐng)域的電腦一樣。我們提供語音平臺,讓各行業(yè)熟悉這些行業(yè)應(yīng)用的、有開發(fā)能力的廠商在他們的系統(tǒng)和產(chǎn)品里進行推廣。

  到目前為止,股權(quán)經(jīng)過了兩次比較大的變化,一次是99年底,一次是2001年6月份聯(lián)想、Intel的進入。在這個過程中,我們始終確保了我們的創(chuàng)業(yè)團隊是第一大股東,不光在經(jīng)營上是主導(dǎo),在開股東大會表決確定公司的方向時我們也是主導(dǎo)。2000年7月,語音平臺終于開發(fā)出來了,在Intel在上海的實驗室進行了測試和優(yōu)化,又通過了華為的測試。到2000年底,我們的合作伙伴有了50多家。"巨大中華"、Intel、聯(lián)想、上海貝爾阿爾卡特、東軟……全都進來了,大家覺得我們做的東西跟別人不一樣。2000底我們開始逐步扭虧為盈。

  作者:那跟剛才提到的巨頭們合作,是否是完全把你們的語音平臺嵌入到他們的產(chǎn)品里面?

  劉:對。當(dāng)時有了50個開發(fā)商,對我們的信心有很大的鼓舞。2001年6月時,開發(fā)商有了大約100個了。那時正值全球網(wǎng)絡(luò)泡沫破滅,納斯達克股市大跌的時候。這時聯(lián)想、Intel和科技部火炬來投資,還有上海第一的民營企業(yè)上海復(fù)興。在這個過程中,做為語音產(chǎn)業(yè)的領(lǐng)導(dǎo)者和拓荒者的雙重角色是我們始終堅持著的原則。

  作者:在您的眼里,其他做語音的企業(yè),比起訊飛來說是要小很多的嗎?

  劉:是的。他們不論從公司規(guī)模、研發(fā)投入、市場應(yīng)用都要小很多,只是在局部領(lǐng)域跟我們有一些競爭。我也并不希望這個產(chǎn)業(yè)中只有訊飛一家,還是希望能聽到更多不同的聲音。

  大家應(yīng)該在廣闊的應(yīng)用里百家爭鳴,百花齊放,形成一種良性的合作。國際上對語音行業(yè)是持續(xù)關(guān)注的,也是投入了很多精力的,但在中國市場沒有投入重兵是因為中國市場內(nèi)有訊飛這樣不易戰(zhàn)勝的對手。目前訊飛在產(chǎn)業(yè)中的地位是確定了。在前五年中,我們的團隊發(fā)展到二百人,在中國科大、中科院聲學(xué)所、社科院語言所建立了三個聯(lián)合實驗室。這個團隊可以說是歷經(jīng)了風(fēng)雨,同甘共苦,是非常好的團隊。

  這幾年當(dāng)中,我們從充滿夢想變得理智而腳踏實地,在創(chuàng)業(yè)過程中得到磨煉很重要。公司成立之初,華為等IT巨頭正在大張旗鼓地招人。電子計算機領(lǐng)域的人全要,年薪起薪7-13萬,而我們留下來的人月薪是1600元。所有的人在99年都簽了三年的勞動合同和保密協(xié)議,沒有一個人提待遇提福利的。我本來在98年留下來時,是想試試看的,還保留了出國的機會。比如保送我上博士我不愿意,是自己考的,因為考上的博士隨時可以出國。后來沒有走,也有個很大原因就是因為這個團隊,因為這些兄弟。

  作者:您在98年后馬上接著讀博士,但當(dāng)時還是用了很大的精力在語音研發(fā)和公司的運作上。是嗎?

  劉:我讀博士時,我們第二梯隊的研發(fā)還沒有完全成長起來,當(dāng)時的關(guān)鍵技術(shù)開發(fā)還是由我來參與的。從02年底到03年開始,他們已經(jīng)能夠?qū)⒀芯砍袚?dān)起來,現(xiàn)在我主要只是把握產(chǎn)品戰(zhàn)略,討論一下研究路線,具體的就不參與了。現(xiàn)在從事產(chǎn)業(yè)經(jīng)營,時間和精力就不夠了。

  作者:劉總,在語音合成的技術(shù)層面上好象有兩種不同的模式吧。是否能介紹一下?
劉:一種是參數(shù)合成,一種是波形拼接,兩種方法是曲線前進的。參數(shù)合成就是模擬人的整個發(fā)音的生理過程,從腹部出來的氣流經(jīng)過聲帶的調(diào)整變成脈動氣流,經(jīng)過聲道、牙齒和鼻變成聲音出來,這個過程可以用一個濾波器來模擬發(fā)音器官。前面肺部的氣流就可以有一個激勵源,就好象向一個管子里用鼓風(fēng)機不斷地鼓入不同的東西,管子變化出不同的形狀,聲音就出來了。語音很大的問題是,同一個字的聲音在不同的語句里,不同的字詞排列,不同的節(jié)湊、情況下,發(fā)音都不盡相同。

  要讓一個機器念出人的聲音來,就好象要蓋一個大樓,首先是要有一系列的規(guī)則,在當(dāng)前的一句話里每一個字、每一個音節(jié),它的聲調(diào)、時長、能量的參數(shù)是什么樣,就好象大樓的設(shè)計圖紙一樣;

  第二,你要有蓋樓的磚頭,最好是各種初定形狀,有些適合做柱子、有些適合做邊角;

  第三,你要有磚刀,把它切成你圖紙中所需要的各種形狀,最后拼起來就蓋成大樓了。我們留的那些參數(shù)就相當(dāng)于那些磚頭、原材料,經(jīng)過一種管子,變成聲音出來。使用這種方法,在參數(shù)中的協(xié)同發(fā)音比較好調(diào)節(jié),聽起來會比較流暢,它基于這種濾波器的模式,很多參數(shù)相互之間可以變得很平滑。但是它的缺點是,由參數(shù)生成出一個個的音節(jié)然后拼成的,與原始的音節(jié)相比總歸多少會在音質(zhì)上有一些差距。它的自然度比較好,但聽來音質(zhì)上差一些,有點模糊。

  波形拼接,就是從原始語音中把聲音取出來直接拼,在聲音剝離上做很小的調(diào)整,這種方法的好處是聽起來每個音都很清楚,但可能會一字一頓的,自然度比較差。這兩個方法是可以融合的。最早做語音的首先是用波形拼接,94年中科院聲學(xué)所做得非常好,到95年我們提出了參數(shù)合成,得了第一。98年我們基于波形拼接有很多獨特的方法,在國際會議又拿了最高獎,跟第二名拉出了很大的差距。99年、2000年時,國際上又出現(xiàn)了大語量庫的方法,它就是一種波形拼接,但是它用統(tǒng)計的辦法從海量數(shù)據(jù)庫里去找。

  我們的語音技術(shù)現(xiàn)在做到超過一般的講話人是沒問題,可以達到接近播音員的水平。但是要讓它做得更靈活,比如說能夠自動地判斷語氣、語調(diào)的重點,判斷文章的結(jié)構(gòu),這個就要涉及到對人類高級神經(jīng)活動的生理解剖學(xué),這個突破不了,我們很難做到完整意義上的突破,所以語音要做到跟真人一樣,這個配套學(xué)科的突破必須要有。但在此之前,我們做到的很多東西已經(jīng)可以使它非常棒了。我們將在今年年底,最遲明年1季度推出一個新的技術(shù),你對著我們的系統(tǒng)講幾分鐘話后,我們的系統(tǒng)可以模仿你講話,現(xiàn)在國家領(lǐng)導(dǎo)人也很重視。這個的關(guān)鍵技術(shù)我們在研究,包括摘要跟語言配套的進展,我能夠把2萬字的內(nèi)容變成200字的摘要,你先看看有沒興趣再去看全文。語音技術(shù)的突破一定依賴于語言技術(shù),這方面我們的進展也很快。我們那三個聯(lián)合實驗室研究的是更前端性的,訊飛自己有很強的基礎(chǔ)研究中心,主要瞄準未來一、兩年中馬上將可能用到的東西,同時消化吸收這三個實驗室的東西。

  作者:95、96年時,我就開始從事CTI行業(yè),那時就感覺到語音識別好象很快就能好了,現(xiàn)在又過去了近10年,好象還是當(dāng)初那樣的感覺,沒有什么本質(zhì)的突破。您能不能再談?wù)務(wù)Z音識別方面的情況?

  劉:語音識別和語音合成這兩個技術(shù)從關(guān)鍵技術(shù)的突破點上來說有很多的共通的地方。語音合成只要能念出某一個標準、令人舒服的聲音就行了;如果做對某一個特定的人的語音識別比較容易做得好,但如果強調(diào)的是非特定人的、任意詞匯的、各種噪音環(huán)境下的,這個就難了。

  語音識別從應(yīng)用和技術(shù)上可以分為三種類型,一種識別就是聲控――命令控制,你說出命令,它完成操作。

  第二,身份確認,在一些非高度保密場合,作為一種輔助手段,配合鑰匙的使用,現(xiàn)在也是很不錯了。

  最難的是語音聽寫,你念完后屏幕上就出來了。現(xiàn)在的語音識別就象一個小孩子一樣,這個孩子學(xué)會了所有的漢字,知道讀音,那么給他一篇文章他能讀出來,但分詞斷句可能會有錯誤,但大概還是能聽得懂。但是你讓他聽寫,特別是專業(yè)文章,他就會錯得亂七八糟。多音字、新詞匯等等,漢語中存在很多問題。如果他只有耳朵和嘴巴,沒有大腦、知識,他沒法聽寫正常,這是第一個障礙。第二個障礙是語音聽寫本身的市場有問題,導(dǎo)致這些企業(yè)或者研究機構(gòu)并沒有花大力氣去投入。市場需求量不大,軟件盜版問題,開拓市場的費用,這些都使得大家對這方面的投入持保留態(tài)度。近幾年這項技術(shù)幾乎沒有什么進步,最多就是在詞典庫、在針對特定領(lǐng)域的文本的語料的收集做得好一些。我認為語音識別技術(shù)下一步重點需要突破的是在聲控識別中智能的程度,包括節(jié)外詞的處理,和一句話中關(guān)鍵詞的提取。另外一個就是面對特定場合的噪音環(huán)境,比如汽車環(huán)境,或是在一些特定領(lǐng)域的噪音處理,應(yīng)該作為語音產(chǎn)業(yè)下一步的重點。 作者:在國內(nèi)做語音的廠商好象不是很多,全國一年總體的市場份額大約是在1個多億吧?
劉:我感覺是的。

相關(guān)閱讀:

分享到: 收藏

專題

泗阳县| 奉新县| 抚远县| 新安县| 新沂市| 永修县| 仁怀市| 扬州市| 建平县| 卢氏县| 称多县| 年辖:市辖区| 时尚| 突泉县| 方山县| 东方市| 吉木乃县| 山阳县| 房山区| 高邑县| 辽阳县| 洛川县| 柏乡县| 明溪县| 长沙县| 分宜县| 顺义区| 锡林郭勒盟| 隆子县| 河间市| 中卫市| 邯郸县| 德化县| 彭山县| 会昌县| 红桥区| 平乡县| 贺兰县| 双桥区| 泸水县| 静海县|