當(dāng)今語音識別技術(shù)的主流算法,主要有基于動態(tài)時間規(guī)整(DTW)算法、基于非參數(shù)模型的矢量量化(VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(HMM)的方法、基于人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)等語音識別方法。
(1) 動態(tài)時間規(guī)整(DTW)
DTW是把時間規(guī)整和距離測度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù),是較早的一種模式匹配和模型訓(xùn)練技術(shù)。該方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。
(2) 矢量量化(VQ)
矢量量化是一種重要的信號壓縮方法,主要適用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點(diǎn)的每1幀,或有k個參數(shù)的每1參數(shù)幀,構(gòu)成k維空間中的1個矢量,然后對矢量進(jìn)行量化。量化時,將k維無限空間劃分為M個區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。
(3) 隱馬爾可夫模型(HMM)
HMM是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將其看作一個數(shù)學(xué)上的雙重隨機(jī)過程:一個是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個是與Markov鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實(shí)際上就是一個雙重隨機(jī)過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流。HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。
(4 )人工神經(jīng)元網(wǎng)絡(luò)(ANN)
人工神經(jīng)元網(wǎng)絡(luò)在語音識別中的應(yīng)用是目前研究的又一熱點(diǎn)。ANN實(shí)際上是一個超大規(guī)模非線性連續(xù)時間自適應(yīng)信息處理系統(tǒng),它模擬了人類神經(jīng)元活動的原理,最主要的特征為連續(xù)時間非線性動力學(xué)、網(wǎng)絡(luò)的全局作用、大規(guī)模并行分布處理及高度的穩(wěn)健性和學(xué)習(xí)聯(lián)想能力。這些能力是HMM模型不具備的。但ANN又不具有HMM模型的動態(tài)時間歸正性能。因此,人們嘗試研究基于HMM和ANN的混合模型,把兩者的優(yōu)點(diǎn)有機(jī)結(jié)合起來,從而提高整個模型的魯棒性,這也是目前研究的一個熱點(diǎn)。
(5) 支持向量機(jī)(SVM)
支持向量機(jī)是應(yīng)用統(tǒng)計(jì)學(xué)習(xí)理論的一種新的學(xué)習(xí)機(jī)模型,它采用結(jié)構(gòu)風(fēng)險最小化原理(SRM),有效克服了傳統(tǒng)經(jīng)驗(yàn)風(fēng)險最小化方法的缺點(diǎn),在解決小樣本、非線性及高維模式識別方面有許多優(yōu)越的性能。其基本思想可以概括為:首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)實(shí)現(xiàn)的。
語音識別所面臨的問題
(1)識別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對環(huán)境依賴性強(qiáng),特別在高噪音環(huán)境下語音識別性能還不理想。
(2)語音識別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過程中,還有許多具體問題需要解決。例如,口語中的重復(fù)、改正、強(qiáng)調(diào)、倒敘、省略、拖音、韻律、識別速度、拒識等問題,還有連續(xù)語音中去除不必要語氣詞如“呃”、“啊”等語音的技術(shù)細(xì)節(jié)問題。
(3)語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需要進(jìn)一步研究。
(4)語音識別的方言和口音問題
(5)信道問題:我們知道在無線互聯(lián)應(yīng)用中,涉及到的信道種類可能會很多,比如固定電話、手機(jī)、IP、網(wǎng)絡(luò)、車載系統(tǒng)等等,各種各樣的信道都有不同的特性。語音識別、聲紋識別和語音理解如何去適應(yīng)不同信道的差異是一個不得不面對的問題。
(6)語音合成:語音合成當(dāng)中,怎樣能夠很好地把感情色彩、情緒等正確地表達(dá)出來,也需要進(jìn)一步去研究。
可以預(yù)測在近五到十年內(nèi),語音識別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語音識別系統(tǒng)產(chǎn)品將出現(xiàn)在市場上。人們也將調(diào)整自己的說話方式以適應(yīng)各種各樣的識別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語音識別系統(tǒng),要建成這樣一個系統(tǒng)仍然是人類面臨的一個大的挑戰(zhàn),我們只能一步步朝著改進(jìn)語音識別系統(tǒng)的方向一步步地前進(jìn)。至于什么時候可以建立一個像人一樣完善的語音識別系統(tǒng)則是很難預(yù)測的。就像在60年代,誰又能預(yù)測今天超大規(guī)模集成電路技術(shù)會對我們的社會產(chǎn)生這么大的影響。
語音識別技術(shù)的前景展望
語音作為當(dāng)前通信系統(tǒng)中最自然的通信媒介,語音識別技術(shù)是非常重要的人機(jī)交互技術(shù)。隨著計(jì)算機(jī)和語音處理技術(shù)的發(fā)展,語音識別系統(tǒng)的實(shí)用性將進(jìn)一步提高。應(yīng)用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。
近年來語音交互功能被應(yīng)用到了應(yīng)急指揮中心當(dāng)中,通過語音調(diào)用大屏幕場景,語音調(diào)用監(jiān)控,語音調(diào)用信號源,語音調(diào)用預(yù)設(shè)內(nèi)容等;
智能語音交互基于指揮中心的應(yīng)用,領(lǐng)導(dǎo)只需按鍵,說出關(guān)鍵詞即可調(diào)用想要的監(jiān)控、PC、及相關(guān)信息,提高了整體指揮調(diào)度的水平。
中天智領(lǐng)研發(fā)的智慧語音交互系統(tǒng):用戶按下遙控器上的語音鍵,下達(dá)清晰和直接的單向預(yù)設(shè)語音指令,傳輸?shù)骄W(wǎng)絡(luò)中的語音識別引擎,達(dá)到對應(yīng)的控制效果。獨(dú)有的語音壓縮算法,將語音壓縮以實(shí)現(xiàn)抗干擾及較遠(yuǎn)距離的語音實(shí)時傳輸,30米范圍內(nèi)精準(zhǔn)遙控,360°無死角聲源定向。對話模型本地運(yùn)行,數(shù)據(jù)本地存儲和處理,保障數(shù)據(jù)的私密性。
中天智領(lǐng)研發(fā)的智慧語音交互系統(tǒng)擁有以下特點(diǎn):
應(yīng)用范圍廣:通過一支智能語音激光遙控,可進(jìn)行業(yè)務(wù)軟件及文檔控制,播放音視頻,調(diào)取監(jiān)控畫面等多項(xiàng)操作。
識別精度高:系統(tǒng)通過無線藍(lán)牙傳輸數(shù)據(jù)和音頻,360度聲源定向,大大提高語音識別精度,系統(tǒng)支持方言模糊識別。
反應(yīng)時間短:語音識別結(jié)果響應(yīng)時間≤100ms,從對語音交互設(shè)備下達(dá)指令到交互指令被執(zhí)行整個過程完成的時間≤1s。
硬件配置優(yōu):專業(yè)防噴麥設(shè)計(jì),聲音內(nèi)容更加清晰;高保真采聲,使聲音采集更加清晰;語音鍵設(shè)置高度貼合人體工學(xué)。(臨場指揮 得心應(yīng)手)
中天智領(lǐng)可根據(jù)用戶需求及建設(shè)目標(biāo),搭建應(yīng)急指揮中心,中天智領(lǐng)智慧應(yīng)急指揮中心擁有多種系統(tǒng):智慧交互激光遙控系統(tǒng)、AI語音交互系統(tǒng)、智慧交互系統(tǒng)級觸控系統(tǒng)、智慧交互手勢識別系統(tǒng)、大屏KVM管控系統(tǒng)、云享控系統(tǒng)、智慧交互電子沙盤、分布式交互處理器、聯(lián)合標(biāo)繪、實(shí)物交互等。系統(tǒng)實(shí)現(xiàn)通過網(wǎng)絡(luò)及通訊傳輸,將全需要監(jiān)控的前端視音頻及多媒體信息資源匯集到監(jiān)控指揮中心綜合管控平臺,實(shí)現(xiàn)信息的資源共享、統(tǒng)一處理。