靈云平臺:超強機身
目前,智能語音交互仍然是最重要的人機交互手段,但正如同人和人的溝通一樣,并不只是依靠語言,文字書寫、圖像、情感表達也都是交流的組成部分。
所以,要實現(xiàn)真正意義上的簡單自然的交流,必須要依靠各種人機交互技術,結合各種復雜的場景,實現(xiàn)隨時、隨地、隨場景的交流與溝通。
為達到上述愿景,捷通華聲于2011年12月08日打造出靈云平臺。靈云平臺是國內(nèi)首個全方位智能人機交互(HCI)技術開放平臺。
靈云不僅僅局限于語音云服務等某一項單一的HCI技術,而是一種可以用語音、手寫、拍照,手勢甚至是未來腦波識別等智能手段來操作、感知手機、計算機等數(shù)字設備的網(wǎng)絡云服務。
目前,靈云以“云+端”的方式,為用戶提供語音合成、語音識別、手寫識別、光學字符識別、自然語言理解等智能人機交互技術服務,其目標就是力求讓人機交互與人與人的溝通一樣簡單自然。
由此可見,靈云平臺本身已超越了大家所熟知的手寫識別、語音識別等領域,而是期望從更寬廣的角度、更完整的視野去詮釋人機交互的各種場景,并最終實現(xiàn)各種應用。
靈云起飛:需平衡短板
任何企業(yè)的成功,必然離不開天時、地利、人和等因素。靈云平臺生逢其時,愿景很美好,捷通華聲打造的靈云平臺設計初衷也非常美好,但其自身實力是否能真正承載這一設計?
靈云平臺作為全方位智能人機交互技術開放平臺,綜合了語音合成、語音識別、手寫識別、光學字符識別、自然語言理解等各項HCI技術,捷通華聲在這些領域的技術積累情況如何呢?是否真正做好了準備?
首先看手寫識別、光學字符識別技術,這兩方面的技術積累已然成熟,捷通華聲對此有多年的應用案例積累,在此不做過多的闡述。
重點從語音技術說起,目前國內(nèi)將語音技術分為語音合成與語音識別兩個方面。語音合成技術在中國已有十多年歷史,應用范圍很廣,包括各種播報、導航等應用較多。目前中國市場幾乎由捷通華聲、科大訊飛兩家公司控制,兩家公司的市場份額相當。
而語音識別技術,由于技術門檻更高,語音應用的范圍更廣,市場潛力巨大,所以吸引了很多國際國內(nèi)很多廠商的關注。
國際知名的語音識別公司Nuance、Google、微軟起步甚早,國內(nèi)科大訊飛依靠科技大學的科研力量,以及在資本市場上獲得的研發(fā)資金支持,在中國語音識別領域儼然是快人一步。與此同時,中科信利、得意音通等傳統(tǒng)新秀語音企業(yè),再加上百度、搜狗、騰訊等由于自身業(yè)務需求應用,也在通過資本收購或者自主研發(fā)進軍語音識別市場。
語音識別市場這樣的競爭格局,顯然對捷通華聲并不是特別有利,而捷通華聲傾力打造的HCI靈云平臺,如果語音識別這樣的重磅的技術不能取得領先,那無異于等同于缺少了左膀右臂。
張連毅推動捷通華聲通過與清華大學的戰(zhàn)略合作,將語音識別技術的短板迅速拉升。“清華大學的語音識別基礎研究已經(jīng)幫助捷通華聲在半年內(nèi)將語音識別技術提高到國內(nèi)最高水平。過去清華大學語音研究力量也一直處在產(chǎn)業(yè)幕后的地位,這次合作,我們將清華科技推向前臺,向產(chǎn)業(yè)界充分展現(xiàn)清華大學在語音技術領域的絕對實力!”張連毅如是說。
而自然語言理解技術,相比語音識別技術更具挑戰(zhàn),自然語言理解技術應用目前已處于爆發(fā)前的起步期,應用靈云越來越廣,捷通華聲已經(jīng)與清華大學幾個國內(nèi)頂尖自然語言理解技術實驗室建立多領域的合作,并與捷通華聲自身核心技術相結合,迅速推出了應用最領先技術自然語言理解技術的靈云智能客服系統(tǒng)。
在新的HCI技術領域,如生物特征識別,一些技術已經(jīng)成熟,一些技術如腦波識別技術,還處于實驗室研究階段,目前討論還為時尚早,張連毅認為,要未雨綢繆,應充分考慮到各種可能,靈云平臺將為生物特征識別技術預留接口。
靈云翱翔:合作共贏
在張連毅看來,合作伙伴至少有三個層次:
一是客戶合作伙伴:捷通華聲永遠都是客戶輝煌背后的支持者,可以默默無聞,從不喧賓奪主。可以是嘀嘀打車背后的聲音,也可以是“漢字英雄”背后的手寫輸入,還可以是導航的領路者。
二是戰(zhàn)略合作伙伴:無論是百度,還是清華大學,成為助捷通華聲HCI靈云平臺翱翔的雙翼。百度語音識別與靈云語音合成完美結合,助力百度地圖、百度導航掀起導航革命,同時讓捷通華聲語音技術應用得到落地;清華大學的基礎科研研究,則為捷通華聲構架起堅實的技術基礎。
三是渠道合作伙伴:捷通華聲希望與各個領域的渠道合作伙伴共同開啟HCI的跨世紀應用。捷通華聲與導航犬的合作,全面應用了靈云語音識別、語音合成、語義理解、語音喚醒等功能。
“只有依靠合作伙伴,才能讓靈云平臺騰飛。”張連毅強調(diào)。
企業(yè)網(wǎng)D1Net總結:
采訪張連毅的過程,是對中國HCI產(chǎn)業(yè)重新認識與定義的過程,這個行業(yè)外表的風光與實際遇到的困境,可能只有身處其中的人才能真正理解。
雖然智能語音等HCI領域風光無限,資本市場的逐利屬性,讓HCI似乎前景甚好,而實際上,據(jù)小編觀察:如當今國內(nèi)的語音產(chǎn)業(yè),并沒有非常成功的前端語音產(chǎn)品可以主宰市場。功能上的同質(zhì)化、用戶體驗不足、語音識別準確率不高、實用化尚有距離等因素依然限制著HCI產(chǎn)業(yè)的發(fā)展。
另一方面,相比較國外語音產(chǎn)業(yè),中國語音產(chǎn)業(yè)規(guī)模尚小,政府支持范圍有限,而且國內(nèi)個別企業(yè)設置各種壁壘,甚至人為“壟斷”,這些因素都限制了中國HCI的發(fā)展。
正如張連毅所說:一花獨放不是春,要鼓勵百花齊放。這個百花齊放我相信不僅僅是指捷通華聲靈云平臺本身需要包羅各種技術,需要聚攏更多合作伙伴,我更期待HCI的各個上下游環(huán)節(jié)的所有伙伴,在以國家利益和產(chǎn)業(yè)整體發(fā)展利益為總體規(guī)劃的前提下,各顯所能,共同發(fā)展。就如馬航的失聯(lián)客機,不要因為人為的狹隘干預,讓這架已經(jīng)啟航的飛機不知落于何處?