交互性是虛擬現(xiàn)實(shí)的三大特性之一,虛擬現(xiàn)實(shí)的人機(jī)交互是指用戶以便攜、自然的方式通過(guò)交互設(shè)備與計(jì)算機(jī)所產(chǎn)生的虛擬世界對(duì)象進(jìn)行的交互, 通過(guò)用戶與虛擬環(huán)境之間的雙向感知建立起一個(gè)更為自然、和諧的人機(jī)環(huán)境,是虛擬現(xiàn)實(shí)為用戶提供體驗(yàn)、走向應(yīng)用的核心環(huán)節(jié)。作為納斯達(dá)克上市企業(yè)“微美全息US.WIMI”旗下研究機(jī)構(gòu)“微美全息科學(xué)院”的科學(xué)家們對(duì)一種新型的虛擬現(xiàn)實(shí)交互技術(shù)-基于視覺的手勢(shì)交互技術(shù)進(jìn)行介紹。
1、基于視覺的手勢(shì)交互技術(shù)
手勢(shì)是人與人之間非語(yǔ)言交流的最重要方式,也是人與VR虛擬環(huán)境交互的重要方式之一。手勢(shì)識(shí)別的準(zhǔn)確性和快速性直接影響人機(jī)交互的準(zhǔn)確性、流暢性和自然性;谝曈X的手勢(shì)交互,用戶無(wú)需穿戴設(shè)備,具有交互方便、自然和表達(dá)豐富的優(yōu)點(diǎn),符合人機(jī)自然交互的大趨勢(shì),適用范圍廣;谝曈X的手勢(shì)交互作為人機(jī)交互的重要組成部分,對(duì)實(shí)現(xiàn)人與VR虛擬環(huán)境自然交互具有重要意義,有廣泛的應(yīng)用前景。
基于視覺的手勢(shì)交互使用手勢(shì)識(shí)別方法實(shí)現(xiàn)人機(jī)交互,從交互過(guò)程來(lái)看,主要包含4個(gè)步驟,如圖2所示:1) 數(shù)據(jù)采集:通過(guò)攝像頭采集人體手部圖像;2) 手部檢測(cè)與分割:檢測(cè)輸入圖像是否有手,如果有手,則檢測(cè)出手的具體位置,并將手部分割出來(lái);3) 手勢(shì)識(shí)別:提取手部區(qū)域特征并將其種類按照一定方法識(shí)別出來(lái);4) 使用識(shí)別結(jié)果控制虛擬環(huán)境中的人或物:將識(shí)別結(jié)果發(fā)送給虛擬環(huán)境控制系統(tǒng),從而控制虛擬人/物實(shí)現(xiàn)特定運(yùn)動(dòng)。其中,手勢(shì)識(shí)別是整個(gè)手勢(shì)交互過(guò)程的核心,而手部檢測(cè)與分割則是手勢(shì)識(shí)別的基礎(chǔ)。
圖2 基于視覺的人機(jī)交互流程
手勢(shì)識(shí)別是手勢(shì)交互的關(guān)鍵技術(shù),直接影響手勢(shì)交互的效果,在整個(gè)交互過(guò)程中占舉足輕重的地位。下面對(duì)手勢(shì)識(shí)別技術(shù)進(jìn)行介紹。
1.1手部檢測(cè)與分割
手部檢測(cè)與分割是手勢(shì)識(shí)別的基礎(chǔ)。手部檢測(cè)是檢測(cè)圖像數(shù)據(jù)是否有手,并找出手在圖像中的具體位置。手部分割是將手部區(qū)域從圖像中分割出來(lái),便于后續(xù)操作,有利于減少計(jì)算量。手部檢測(cè)與分割是手勢(shì)識(shí)別的第一步,也是手勢(shì)識(shí)別的基礎(chǔ)。一般情況下表征物體有 3 種特性:邊緣形狀、紋理以及顏色。在一定距離時(shí),手部的紋理表現(xiàn)較為平滑,對(duì)比性較差,因此利用紋理特征檢測(cè)手部,優(yōu)勢(shì)不明顯。對(duì)于手部檢測(cè),目前多用形狀和顏色特征檢測(cè)手部.因此,常見的手部檢測(cè)方法大致分為以下幾類:基于形狀信息特征的方法、基于膚色信息的方法和基于運(yùn)動(dòng)信息的方法。
1.1.1 基于形狀信息特征的方法
形狀是描述圖像內(nèi)容的重要特征,手部的形狀和其他物體的形狀存在一定差異,因此可以利用形狀的差異將手部從圖像中提取出來(lái),還可以基于形狀信息使用圖像訓(xùn)練集訓(xùn)練分類器檢測(cè)手部,此類方法是基于分類的物體檢測(cè)方法,它通常假設(shè)不同手勢(shì)的外形不同,并且這種不同遠(yuǎn)大于不同人做同一種手勢(shì)的不同。此類方法常使用方向梯度直方圖(HOG)、 Haar 小波和尺度不變特征變換(SIFT)等特征。
1.1.2 基于膚色信息的方法
由于人體膚色與背景存在一定差異性,并且膚色具有天然的平移不變性及旋轉(zhuǎn)不變性,不受拍攝視角、人體姿勢(shì)等影響,因此,基于膚色信息的方法計(jì)算量較小,運(yùn)算速度較快,是手部檢測(cè)的常用方法,但容易受人種、光照、類膚色背景等影響。使用膚色信息檢測(cè)手部,首先需選擇色彩空間(RGB、 HSV、 YCbCr、 YUV 等)。為了增強(qiáng)膚色檢測(cè)在不同光照條件下的魯棒性,優(yōu)先選取將亮度與色度分量分離的色彩空間(如 HSV、 YCbCr 等)。
1.1.3 基于運(yùn)動(dòng)信息的方法
運(yùn)動(dòng)信息可作為檢測(cè)手部的一種方法,但使用運(yùn)動(dòng)信息檢測(cè)手部時(shí)對(duì)手勢(shì)者或背景常做一些假設(shè),如手勢(shì)者的動(dòng)作不能太快,手勢(shì)者相對(duì)背景靜止或運(yùn)動(dòng)量很小、場(chǎng)景光照條件變化不大等。假設(shè)圖像采集設(shè)備固定不動(dòng),則背景靜止或變化很小,這種檢測(cè)方式稱為靜態(tài)背景檢測(cè),這種情況主要有3 種檢測(cè)方法:光流法、幀間差分法和背景差分法。
光流法可獲取全面場(chǎng)景信息,不僅能獲取手勢(shì)信息,還可獲取手勢(shì)外的其他信息,如場(chǎng)景信息。在不知道圖像中任何相關(guān)信息的情況下,光流法也可獨(dú)立檢測(cè)出運(yùn)動(dòng)目標(biāo),獨(dú)立性較好,應(yīng)用范圍較廣,但光流法較復(fù)雜,如果不使用加速技術(shù),很難滿足實(shí)時(shí)要求。幀間差分法較簡(jiǎn)單,計(jì)算速度較快,可在一定程度上消除外界因素影響,穩(wěn)定性較好,但對(duì)運(yùn)動(dòng)目標(biāo)的檢測(cè)精度較低,提取目標(biāo)物體邊界不完整,對(duì)相鄰幀間的間隔有較高要求。背景差分法較簡(jiǎn)單,運(yùn)算速度較快,能較完整地檢測(cè)運(yùn)動(dòng)目標(biāo),但該算法只能應(yīng)用于攝像頭固定的靜態(tài)背景情況下,并且誤檢率較高,檢測(cè)的運(yùn)動(dòng)區(qū)域常包含手部之外的區(qū)域(如手臂)。運(yùn)動(dòng)信息不僅能單獨(dú)使用來(lái)檢測(cè)手部,還可以與其他視覺信息結(jié)合檢測(cè)手部區(qū)域。
1.2手勢(shì)識(shí)別
手勢(shì)識(shí)別是手勢(shì)交互的關(guān)鍵技術(shù),是對(duì)分割后的手部區(qū)域進(jìn)行特征提取和手勢(shì)分類的過(guò)程,也可以理解為將模型參數(shù)空間的點(diǎn)(或軌跡)分類到該空間的某個(gè)子集的過(guò)程。其中,靜態(tài)手勢(shì)(基于圖像的手勢(shì))對(duì)應(yīng)模型參數(shù)空間點(diǎn),動(dòng)態(tài)手勢(shì)(基于視頻的手勢(shì))對(duì)應(yīng)模型參數(shù)空間的一條軌跡。手勢(shì)識(shí)別方法大致分為以下幾種:基于模板匹配的方法、基于機(jī)器學(xué)習(xí)的方法和隱馬爾可夫模型方法等。
1.2.1基于模板匹配的方法
模板匹配法是最早出現(xiàn)、最簡(jiǎn)單的模式識(shí)別方法之一,多用于靜態(tài)手勢(shì)識(shí)別。該方法是將輸入圖像與模板(點(diǎn)、曲線或形狀)進(jìn)行匹配,根據(jù)匹配相似度進(jìn)行分類,匹配度計(jì)算方法有:歐氏距離、Hausdorff 距離、夾角余弦等。輪廓邊緣匹配、彈性圖匹配等都屬于模板匹配方法。模板匹配方法的優(yōu)點(diǎn)是簡(jiǎn)單快速,不受光照、背景、姿態(tài)等影響,應(yīng)用范圍較廣,但分類準(zhǔn)確率不高,可識(shí)別手勢(shì)種類有限,適用于小樣本、外形等變化不大的情況。
1.2.2基于機(jī)器學(xué)習(xí)的方法
機(jī)器學(xué)習(xí)使用統(tǒng)計(jì)學(xué)方法解決不確定性問題,機(jī)器學(xué)習(xí)致力于研究計(jì)算機(jī)從數(shù)據(jù)中產(chǎn)生模型的算法,即“學(xué)習(xí)算法”。有了學(xué)習(xí)算法,就能基于數(shù)據(jù)產(chǎn)生模型,面對(duì)新情況時(shí),就能使用此模型進(jìn)行相應(yīng)判斷。機(jī)器學(xué)習(xí)發(fā)展迅速,是現(xiàn)階段計(jì)算機(jī)應(yīng)用領(lǐng)域的研究熱點(diǎn)。許多基于表觀的靜態(tài)手勢(shì)識(shí)別使用機(jī)器學(xué)習(xí)方法。目前常用的機(jī)器學(xué)習(xí)算法有支持向量機(jī)法、人工神經(jīng)網(wǎng)絡(luò)法、AdaBoost方法等。
支持向量機(jī)是一種二分類模型,它的基本模型是定義在特征空間上的最大間隔的線性分類器。支持向量機(jī)還可以利用核方法,將其擴(kuò)展為非線性分類器。它的學(xué)習(xí)策略是間隔最大化,可形式化為求解凸二次規(guī)劃問題,這樣的凸二次規(guī)劃問題具有全局最優(yōu)解。
人工神經(jīng)網(wǎng)絡(luò)誕生于 20 世紀(jì) 40 年代初期,它是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),它能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界所作出的交互反應(yīng),具有較強(qiáng)的容錯(cuò)性、魯棒性、高度并行性、自適應(yīng)性、抗干擾性和移動(dòng)學(xué)習(xí)能力等。隨著深度學(xué)習(xí)熱潮的到來(lái),神經(jīng)網(wǎng)絡(luò)再次受到關(guān)注,被廣泛應(yīng)用于語(yǔ)音識(shí)別和圖像分類等問題。神經(jīng)網(wǎng)絡(luò)種類繁多,手勢(shì)識(shí)別率一般受手部檢測(cè)模型優(yōu)劣、訓(xùn)練樣本多少等限制。
boosting 算法是將弱學(xué)習(xí)算法提升為強(qiáng)學(xué)習(xí)算法的統(tǒng)計(jì)學(xué)習(xí)方法。它通過(guò)反復(fù)修改訓(xùn)練數(shù)據(jù)的權(quán)值分布,構(gòu)建一系列基本分類器(弱分類器),并將這些基本分類器線性組合構(gòu)成一個(gè)強(qiáng)分類。boosting 算法要求提前預(yù)知弱分類器錯(cuò)誤上限,難以應(yīng)用于實(shí)際。將加權(quán)投票與在線分配問題結(jié)合,在boosting 框架下進(jìn)行推廣便得到 AdaBoost。
AdaBoost是 boosting家族的著名代表,在人體檢測(cè)與識(shí)別等領(lǐng)域有著廣泛的應(yīng)用。AdaBoost 具有下列優(yōu)點(diǎn):AdaBoost 提供一種框架,在框架內(nèi)可使用各種方法構(gòu)建子分類器,可以使用簡(jiǎn)單的弱分類器,不用篩選特征,很少發(fā)生過(guò)擬合現(xiàn)象。AdaBoost 不需要弱分類器的先驗(yàn)知識(shí),也不需要預(yù)先知道弱分類器的上限,最后得到的強(qiáng)分類器精度依賴于所有弱分類器的分類精度,可以深挖弱分類器的能力。AdaBoost 可根據(jù)弱分類器的反饋,自適應(yīng)調(diào)整假定的錯(cuò)誤率,執(zhí)行效率很高,并且能顯著提高學(xué)習(xí)精度。但在訓(xùn)練過(guò)程中,AdaBoost 致使難分類樣本的權(quán)重呈指數(shù)增長(zhǎng),訓(xùn)練將會(huì)過(guò)于偏向這類困難樣本,進(jìn)而左右誤差的計(jì)算和分類器的挑選,降低分類器精度。另外,AdaBoost 易受噪聲干擾,執(zhí)行效果依賴于弱分類器的選擇,且弱分類器訓(xùn)練時(shí)間偏長(zhǎng)。
1.2.3隱馬爾可夫模型方法
隱馬爾可夫模型(HMM)是關(guān)于時(shí)序的概率模型,描述由一個(gè)隱藏的馬爾可夫鏈隨機(jī)生成不可觀測(cè)的狀態(tài)隨機(jī)序列,再由各個(gè)狀態(tài)生成一個(gè)觀測(cè)而產(chǎn)生觀測(cè)隨機(jī)序列的過(guò)程。隱馬爾可夫模型非常適合描述序列模型,特別適合上下文相關(guān)的場(chǎng)合。隱馬爾可夫模型是馬爾可夫鏈的一個(gè)擴(kuò)展,是結(jié)構(gòu)簡(jiǎn)單的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),是著名的有向圖模型,作為基于概率統(tǒng)計(jì)的典型方法在語(yǔ)音識(shí)別、手勢(shì)識(shí)別等領(lǐng)域有廣泛應(yīng)用。對(duì)于手勢(shì)識(shí)別來(lái)說(shuō),隱馬爾可夫模型比較適合連續(xù)手勢(shì)識(shí)別,尤其適合復(fù)雜的涉及上下文的手勢(shì)。隱馬爾可夫模型訓(xùn)練和識(shí)別的計(jì)算量很大,尤其是在連續(xù)信號(hào)的分析中,狀態(tài)的轉(zhuǎn)換導(dǎo)致需要計(jì)算大量的概率密度,參數(shù)變多,使得樣本訓(xùn)練及目標(biāo)識(shí)別的速度變慢。為了解決此問題,一般手勢(shì)識(shí)別系統(tǒng)中采用離散隱馬爾可夫模型進(jìn)行分析。
2. 結(jié)束語(yǔ)
基于視覺的手勢(shì)交互是人與虛擬環(huán)境交互的重要方式,具有交互自然、方便的優(yōu)點(diǎn),對(duì)虛擬現(xiàn)實(shí)的沉浸式體驗(yàn)具有重要意義,雖然目前已經(jīng)取得了一些階段性研究成果,但是仍有許多問題亟待解決,如復(fù)雜背景下的手部檢測(cè)、與其他交互方式的融合、功能集成等。基于視覺的手勢(shì)交互具有重要的科學(xué)價(jià)值和廣闊的應(yīng)用前景,隨著虛擬現(xiàn)實(shí)對(duì)沉浸式體驗(yàn)需求的不斷增強(qiáng),基于視覺的手勢(shì)交互必將在虛擬現(xiàn)實(shí)中發(fā)揮重要作用。