中文字幕在线视频第一页,黄色毛片在线看,日本爱爱网站,亚洲系列中文字幕一区二区

您當(dāng)前的位置是:  首頁(yè) > 新聞 > 文章精選 >
 首頁(yè) > 新聞 > 文章精選 >

AI時(shí)代、FreeSWITCH能做什么?

2018-04-02 10:14:49   作者:Seven Du   來源:FreeSWITCH-CN   評(píng)論:0  點(diǎn)擊:


  AI是Artificial Intelligence的縮寫,也就是我們所說的人工智能。
  自從2016年Alpha Go戰(zhàn)勝李世石,人類好像就跑步進(jìn)入了智能時(shí)代。
  就在當(dāng)年,《浪潮之巔》的作者吳軍又出版了一本書,就叫《智能時(shí)代》。不過,值得一提的是,這本書有個(gè)副標(biāo)題叫“大數(shù)據(jù)與智能革命重新定義未來”。
  那么,智能時(shí)代跟FreeSWITCH什么關(guān)系呢?嚴(yán)格來說,其實(shí)沒什么關(guān)系。你看,我今天又標(biāo)題黨了。
  FreeSWITCH是一個(gè)軟交換系統(tǒng),或者更科普一點(diǎn)說就是個(gè)電話系統(tǒng)。雖然在智能手機(jī)時(shí)代,更多的人都在使用互聯(lián)網(wǎng),上微信,但電話,永遠(yuǎn)是更方便更直接的交流方式。而FreeSWITCH里,跟AI搭邊的,就是ASR和TTS。
  FreeSWITCH很早的版本就有ASR和TTS接口。是的,F(xiàn)reeSWITCH本身其實(shí)并不做ASR和TTS。
  那么,什么是ASR和TTS?
  ASR的全稱是Automatic Speech Recognition,即自動(dòng)語(yǔ)音識(shí)別。TTS的全稱是Text To Speech,即文本到語(yǔ)音的轉(zhuǎn)換。可以看出,它們是相對(duì)的,說得再土一點(diǎn)就是「語(yǔ)音轉(zhuǎn)文字」和「文字轉(zhuǎn)語(yǔ)音」。
  然而,ASR和TTS本來跟人工智能也沒有關(guān)系。但是,在智能時(shí)代,它們就有了關(guān)系。我們先來看TTS。
  據(jù)說早在17世紀(jì)就有法國(guó)人研發(fā)機(jī)械式的說話裝置。直到19世紀(jì),貝爾實(shí)驗(yàn)室對(duì)語(yǔ)音合成技術(shù)的研究,才開啟年代語(yǔ)音合成技術(shù)的發(fā)展。1939年,貝爾實(shí)驗(yàn)室制作出第一個(gè)電子語(yǔ)音合成器VODER。是一種利用共振峰原理所制作的合成器。 1960年,瑞典語(yǔ)言學(xué)家G. Fant則提出利用線性預(yù)測(cè)編碼技術(shù)(LPC)來作為語(yǔ)音合成分析技術(shù),并推動(dòng)了日后的發(fā)展。后來1980年代Moulines E和Charpentier F提出新的語(yǔ)音合成演算法PSOLA,此技術(shù)可以合成比較自然的語(yǔ)音。
  偉大的物理學(xué)家與宇宙學(xué)家霍金離開我們了,但他的發(fā)音(用語(yǔ)音合成技術(shù)實(shí)現(xiàn)的)卻永遠(yuǎn)留在了我們的腦子里。霍金21歲時(shí)患上肌肉萎縮性側(cè)索硬化癥(盧伽雷氏癥),全身癱瘓,不能言語(yǔ)。
  劍橋精益通訊公司(Cambridge Adaptive Communication)」的David Mason 幫他在電動(dòng)輪椅子上裝了一款語(yǔ)音合成器,據(jù)說是由加州電腦專家花托茲(Walt Woltosz)于1985年幫他研發(fā)的。發(fā)音很有機(jī)器人的感覺,而且還帶有美國(guó)口音。
  TTS的大力發(fā)展還是在20世紀(jì)90年代,隨著計(jì)算機(jī)計(jì)算和存儲(chǔ)能力的大幅提升,通過使用大語(yǔ)料庫(kù)和波形拼接方法,可以合成高質(zhì)量的人聲。到了21世紀(jì),語(yǔ)音合成技術(shù)更是飛速發(fā)展,音色和情感的加入,使合成的語(yǔ)音更加自然和有個(gè)性。
  目前,最高水準(zhǔn)的TTS應(yīng)該是谷歌的Tacotron 2了:
  https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html
  https://www.androidpolice.com/2017/12/28/googles-new-text-speech-system-sounds-convincingly-human/
  嗯,我聽了一直,確實(shí)難以分辨是否是機(jī)器還是真人發(fā)音了。
  tacotron2
  來自FreeSWITCH中文社區(qū)
  00:0000:07
  由于每篇文章只能放一個(gè)語(yǔ)音,因此,我將兩段語(yǔ)音連在一起了。你能分辨出哪段是真人,哪是機(jī)器嗎?
  另外,上面我還附加了一段中文的Wavenet產(chǎn)生的語(yǔ)音。Tacotron 2應(yīng)該也是基于Wavenet技術(shù)實(shí)現(xiàn)的。
  再說ASR。ASR是人機(jī)交互很關(guān)鍵的一環(huán)。一直以來,ASR只是一個(gè)夢(mèng)想和玩具,直到蘋果手機(jī)上Siri的出現(xiàn),才算真正進(jìn)入了千家萬戶。
  以下內(nèi)容抄自維基百科:
  早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語(yǔ)音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識(shí)別及合成的雛形。而1920年代生產(chǎn)的"Radio Rex"玩具狗可能是最早的語(yǔ)音識(shí)別器,當(dāng)這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來[2]。最早的基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)是由AT&T貝爾實(shí)驗(yàn)室開發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字。其識(shí)別方法是跟蹤語(yǔ)音中的共振峰。該系統(tǒng)得到了98%的正確率。[3]。到1950年代末,倫敦學(xué)院(Colledge of London)的Denes已經(jīng)將語(yǔ)法概率加入語(yǔ)音識(shí)別中。
  1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。這一時(shí)代的兩大突破是線性預(yù)測(cè)編碼Linear Predictive Coding (LPC), 及動(dòng)態(tài)時(shí)間規(guī)整Dynamic Time Warp技術(shù)。
  語(yǔ)音識(shí)別技術(shù)的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過Rabiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實(shí)現(xiàn)了第一個(gè)基于隱馬爾科夫模型的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx。此后嚴(yán)格來說語(yǔ)音識(shí)別技術(shù)并沒有脫離HMM框架。
  說到卡內(nèi)基梅隆大學(xué),確實(shí)對(duì)TTS和ASR的貢獻(xiàn)很大。FreeSWITCH內(nèi)部的兩個(gè)模塊`mod_flite`(TTS)和`mod_pockerspinx`(ASR)底層庫(kù)就都出自于這個(gè)大學(xué)的研究。
  OK,好像終于回到我們的主題了。時(shí)間可以抹平一切。自從Siri出現(xiàn)后,好像市面上一下子出了一堆令人眼花燎亂的ASR產(chǎn)品。它們有一個(gè)共同的特點(diǎn):都是出現(xiàn)在智能時(shí)代。
  隨著「大數(shù)據(jù)」的不斷積累,「深度學(xué)習(xí)」和「神經(jīng)網(wǎng)絡(luò)」的不斷進(jìn)步,更「聰明」的ASR是歷史進(jìn)步的必然結(jié)果。
  我們來看一下這些產(chǎn)品吧:
  • Siri
  • Nuance
  • Google Now
  • GCloud (google)
  • Watson (IBM)
  • Polly  (Amazon)
  • Cortana (Microsoft)
  • 迅飛語(yǔ)音
  • 百度語(yǔ)音
  • 阿里語(yǔ)音
  • 騰迅語(yǔ)音
  • ……
  當(dāng)然,F(xiàn)reeSWITCH并不僅僅能合成和識(shí)別語(yǔ)音,什么人臉啊,人民幣啊,統(tǒng)統(tǒng)都能識(shí)別。還記得那篇「如何優(yōu)雅地在夏威夷海灘上寫代碼」嗎?
  嗯,最后回到我們的主題。我們的工程師閑得腚疼,為每種提供在線語(yǔ)音API的服務(wù)寫了一個(gè)ASR及(或)TTS接口的模塊。看到語(yǔ)音識(shí)別需要VAD(Voice Activity Detection,嗯,比較低級(jí)的功能,就是檢測(cè)你是不是在說話),就連夜寫了一個(gè)VAD庫(kù)。我跟他們說了,寫歸寫,如果賣不出去,估計(jì)下個(gè)月工資要給他們發(fā)西北風(fēng)了。
  好在,萬眾期待的XSWITCH平臺(tái)也即將對(duì)外發(fā)布了。很抱歉讓很多朋友等了一年,但這次,我們有點(diǎn)認(rèn)真了。
  愚人節(jié)都要過去了,真相還會(huì)遠(yuǎn)嗎?
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

乐昌市| 江北区| 金堂县| 肇源县| 鄂温| 星子县| 万山特区| 鄂尔多斯市| 汽车| 哈尔滨市| 康定县| 龙里县| 正蓝旗| 杨浦区| 梓潼县| 安岳县| 博兴县| 巴南区| 通辽市| 新丰县| 科尔| 临邑县| 宁河县| 从江县| 高密市| 唐海县| 兴宁市| 罗甸县| 津南区| 思茅市| 太和县| 万盛区| 丽水市| 衡水市| 自贡市| 叙永县| 开远市| 广安市| 探索| 南川市| 平陆县|