搜索新聞

微美全息科學(xué)院：虛擬現(xiàn)實中基于視覺的人機手勢交互技術(shù)

來源：微美全息科學(xué)院　更新日期：2022-03-28 作者：佚名

年度商顯市場最大的看點何在小間距LED顯示屏年終總結(jié) 年度評選盛典獲獎揭曉

交互性是虛擬現(xiàn)實的三大特性之一，虛擬現(xiàn)實的人機交互是指用戶以便攜、自然的方式通過交互設(shè)備與計算機所產(chǎn)生的虛擬世界對象進行的交互, 通過用戶與虛擬環(huán)境之間的雙向感知建立起一個更為自然、和諧的人機環(huán)境，是虛擬現(xiàn)實為用戶提供體驗、走向應(yīng)用的核心環(huán)節(jié)。作為納斯達克上市企業(yè)“微美全息US.WIMI”旗下研究機構(gòu)“微美全息科學(xué)院”的科學(xué)家們對一種新型的虛擬現(xiàn)實交互技術(shù)-基于視覺的手勢交互技術(shù)進行介紹。

1、基于視覺的手勢交互技術(shù)

手勢是人與人之間非語言交流的最重要方式，也是人與VR虛擬環(huán)境交互的重要方式之一。手勢識別的準(zhǔn)確性和快速性直接影響人機交互的準(zhǔn)確性、流暢性和自然性�；谝曈X的手勢交互，用戶無需穿戴設(shè)備，具有交互方便、自然和表達豐富的優(yōu)點，符合人機自然交互的大趨勢，適用范圍廣�；谝曈X的手勢交互作為人機交互的重要組成部分，對實現(xiàn)人與VR虛擬環(huán)境自然交互具有重要意義，有廣泛的應(yīng)用前景。

基于視覺的手勢交互使用手勢識別方法實現(xiàn)人機交互，從交互過程來看，主要包含4個步驟，如圖2所示：1) 數(shù)據(jù)采集：通過攝像頭采集人體手部圖像；2) 手部檢測與分割：檢測輸入圖像是否有手，如果有手，則檢測出手的具體位置，并將手部分割出來；3) 手勢識別：提取手部區(qū)域特征并將其種類按照一定方法識別出來；4) 使用識別結(jié)果控制虛擬環(huán)境中的人或物：將識別結(jié)果發(fā)送給虛擬環(huán)境控制系統(tǒng)，從而控制虛擬人/物實現(xiàn)特定運動。其中，手勢識別是整個手勢交互過程的核心，而手部檢測與分割則是手勢識別的基礎(chǔ)。

圖2 基于視覺的人機交互流程

手勢識別是手勢交互的關(guān)鍵技術(shù)，直接影響手勢交互的效果，在整個交互過程中占舉足輕重的地位。下面對手勢識別技術(shù)進行介紹。

1.1手部檢測與分割

手部檢測與分割是手勢識別的基礎(chǔ)。手部檢測是檢測圖像數(shù)據(jù)是否有手，并找出手在圖像中的具體位置。手部分割是將手部區(qū)域從圖像中分割出來，便于后續(xù)操作，有利于減少計算量。手部檢測與分割是手勢識別的第一步，也是手勢識別的基礎(chǔ)。一般情況下表征物體有 3 種特性：邊緣形狀、紋理以及顏色。在一定距離時，手部的紋理表現(xiàn)較為平滑，對比性較差，因此利用紋理特征檢測手部，優(yōu)勢不明顯。對于手部檢測，目前多用形狀和顏色特征檢測手部．因此，常見的手部檢測方法大致分為以下幾類：基于形狀信息特征的方法、基于膚色信息的方法和基于運動信息的方法。

1.1.1 基于形狀信息特征的方法

形狀是描述圖像內(nèi)容的重要特征，手部的形狀和其他物體的形狀存在一定差異，因此可以利用形狀的差異將手部從圖像中提取出來，還可以基于形狀信息使用圖像訓(xùn)練集訓(xùn)練分類器檢測手部，此類方法是基于分類的物體檢測方法，它通常假設(shè)不同手勢的外形不同，并且這種不同遠(yuǎn)大于不同人做同一種手勢的不同。此類方法常使用方向梯度直方圖（HOG）、 Haar 小波和尺度不變特征變換（SIFT）等特征。

1.1.2 基于膚色信息的方法

由于人體膚色與背景存在一定差異性，并且膚色具有天然的平移不變性及旋轉(zhuǎn)不變性，不受拍攝視角、人體姿勢等影響，因此，基于膚色信息的方法計算量較小，運算速度較快，是手部檢測的常用方法，但容易受人種、光照、類膚色背景等影響。使用膚色信息檢測手部，首先需選擇色彩空間（RGB、 HSV、 YCbCr、 YUV 等）。為了增強膚色檢測在不同光照條件下的魯棒性，優(yōu)先選取將亮度與色度分量分離的色彩空間（如 HSV、 YCbCr 等）。

1.1.3 基于運動信息的方法

運動信息可作為檢測手部的一種方法，但使用運動信息檢測手部時對手勢者或背景常做一些假設(shè)，如手勢者的動作不能太快，手勢者相對背景靜止或運動量很小、場景光照條件變化不大等。假設(shè)圖像采集設(shè)備固定不動，則背景靜止或變化很小，這種檢測方式稱為靜態(tài)背景檢測，這種情況主要有3 種檢測方法：光流法、幀間差分法和背景差分法。

光流法可獲取全面場景信息，不僅能獲取手勢信息，還可獲取手勢外的其他信息，如場景信息。在不知道圖像中任何相關(guān)信息的情況下，光流法也可獨立檢測出運動目標(biāo)，獨立性較好，應(yīng)用范圍較廣，但光流法較復(fù)雜，如果不使用加速技術(shù)，很難滿足實時要求。幀間差分法較簡單，計算速度較快，可在一定程度上消除外界因素影響，穩(wěn)定性較好，但對運動目標(biāo)的檢測精度較低，提取目標(biāo)物體邊界不完整，對相鄰幀間的間隔有較高要求。背景差分法較簡單，運算速度較快，能較完整地檢測運動目標(biāo)，但該算法只能應(yīng)用于攝像頭固定的靜態(tài)背景情況下，并且誤檢率較高，檢測的運動區(qū)域常包含手部之外的區(qū)域（如手臂）。運動信息不僅能單獨使用來檢測手部，還可以與其他視覺信息結(jié)合檢測手部區(qū)域。

1.2手勢識別

手勢識別是手勢交互的關(guān)鍵技術(shù)，是對分割后的手部區(qū)域進行特征提取和手勢分類的過程，也可以理解為將模型參數(shù)空間的點（或軌跡）分類到該空間的某個子集的過程。其中，靜態(tài)手勢（基于圖像的手勢）對應(yīng)模型參數(shù)空間點，動態(tài)手勢（基于視頻的手勢）對應(yīng)模型參數(shù)空間的一條軌跡。手勢識別方法大致分為以下幾種：基于模板匹配的方法、基于機器學(xué)習(xí)的方法和隱馬爾可夫模型方法等。

1.2.1基于模板匹配的方法

模板匹配法是最早出現(xiàn)、最簡單的模式識別方法之一，多用于靜態(tài)手勢識別。該方法是將輸入圖像與模板（點、曲線或形狀）進行匹配，根據(jù)匹配相似度進行分類，匹配度計算方法有：歐氏距離、Hausdorff 距離、夾角余弦等。輪廓邊緣匹配、彈性圖匹配等都屬于模板匹配方法。模板匹配方法的優(yōu)點是簡單快速，不受光照、背景、姿態(tài)等影響，應(yīng)用范圍較廣，但分類準(zhǔn)確率不高，可識別手勢種類有限，適用于小樣本、外形等變化不大的情況。

1.2.2基于機器學(xué)習(xí)的方法

機器學(xué)習(xí)使用統(tǒng)計學(xué)方法解決不確定性問題，機器學(xué)習(xí)致力于研究計算機從數(shù)據(jù)中產(chǎn)生模型的算法，即“學(xué)習(xí)算法”。有了學(xué)習(xí)算法，就能基于數(shù)據(jù)產(chǎn)生模型，面對新情況時，就能使用此模型進行相應(yīng)判斷。機器學(xué)習(xí)發(fā)展迅速，是現(xiàn)階段計算機應(yīng)用領(lǐng)域的研究熱點。許多基于表觀的靜態(tài)手勢識別使用機器學(xué)習(xí)方法。目前常用的機器學(xué)習(xí)算法有支持向量機法、人工神經(jīng)網(wǎng)絡(luò)法、AdaBoost方法等。

支持向量機是一種二分類模型，它的基本模型是定義在特征空間上的最大間隔的線性分類器。支持向量機還可以利用核方法，將其擴展為非線性分類器。它的學(xué)習(xí)策略是間隔最大化，可形式化為求解凸二次規(guī)劃問題，這樣的凸二次規(guī)劃問題具有全局最優(yōu)解。

人工神經(jīng)網(wǎng)絡(luò)誕生于 20 世紀(jì) 40 年代初期，它是由具有適應(yīng)性的簡單單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò)，它能夠模擬生物神經(jīng)系統(tǒng)對真實世界所作出的交互反應(yīng)，具有較強的容錯性、魯棒性、高度并行性、自適應(yīng)性、抗干擾性和移動學(xué)習(xí)能力等。隨著深度學(xué)習(xí)熱潮的到來，神經(jīng)網(wǎng)絡(luò)再次受到關(guān)注，被廣泛應(yīng)用于語音識別和圖像分類等問題。神經(jīng)網(wǎng)絡(luò)種類繁多，手勢識別率一般受手部檢測模型優(yōu)劣、訓(xùn)練樣本多少等限制。

boosting 算法是將弱學(xué)習(xí)算法提升為強學(xué)習(xí)算法的統(tǒng)計學(xué)習(xí)方法。它通過反復(fù)修改訓(xùn)練數(shù)據(jù)的權(quán)值分布，構(gòu)建一系列基本分類器（弱分類器），并將這些基本分類器線性組合構(gòu)成一個強分類。boosting 算法要求提前預(yù)知弱分類器錯誤上限，難以應(yīng)用于實際。將加權(quán)投票與在線分配問題結(jié)合，在boosting 框架下進行推廣便得到 AdaBoost。

AdaBoost是 boosting家族的著名代表，在人體檢測與識別等領(lǐng)域有著廣泛的應(yīng)用。AdaBoost 具有下列優(yōu)點：AdaBoost 提供一種框架，在框架內(nèi)可使用各種方法構(gòu)建子分類器，可以使用簡單的弱分類器，不用篩選特征，很少發(fā)生過擬合現(xiàn)象。AdaBoost 不需要弱分類器的先驗知識，也不需要預(yù)先知道弱分類器的上限，最后得到的強分類器精度依賴于所有弱分類器的分類精度，可以深挖弱分類器的能力。AdaBoost 可根據(jù)弱分類器的反饋，自適應(yīng)調(diào)整假定的錯誤率，執(zhí)行效率很高，并且能顯著提高學(xué)習(xí)精度。但在訓(xùn)練過程中，AdaBoost 致使難分類樣本的權(quán)重呈指數(shù)增長，訓(xùn)練將會過于偏向這類困難樣本，進而左右誤差的計算和分類器的挑選，降低分類器精度。另外，AdaBoost 易受噪聲干擾，執(zhí)行效果依賴于弱分類器的選擇，且弱分類器訓(xùn)練時間偏長。

1.2.3隱馬爾可夫模型方法

隱馬爾可夫模型（HMM）是關(guān)于時序的概率模型，描述由一個隱藏的馬爾可夫鏈隨機生成不可觀測的狀態(tài)隨機序列，再由各個狀態(tài)生成一個觀測而產(chǎn)生觀測隨機序列的過程。隱馬爾可夫模型非常適合描述序列模型，特別適合上下文相關(guān)的場合。隱馬爾可夫模型是馬爾可夫鏈的一個擴展，是結(jié)構(gòu)簡單的動態(tài)貝葉斯網(wǎng)絡(luò)，是著名的有向圖模型，作為基于概率統(tǒng)計的典型方法在語音識別、手勢識別等領(lǐng)域有廣泛應(yīng)用。對于手勢識別來說，隱馬爾可夫模型比較適合連續(xù)手勢識別，尤其適合復(fù)雜的涉及上下文的手勢。隱馬爾可夫模型訓(xùn)練和識別的計算量很大，尤其是在連續(xù)信號的分析中，狀態(tài)的轉(zhuǎn)換導(dǎo)致需要計算大量的概率密度，參數(shù)變多，使得樣本訓(xùn)練及目標(biāo)識別的速度變慢。為了解決此問題，一般手勢識別系統(tǒng)中采用離散隱馬爾可夫模型進行分析。

2. 結(jié)束語

基于視覺的手勢交互是人與虛擬環(huán)境交互的重要方式，具有交互自然、方便的優(yōu)點，對虛擬現(xiàn)實的沉浸式體驗具有重要意義，雖然目前已經(jīng)取得了一些階段性研究成果，但是仍有許多問題亟待解決，如復(fù)雜背景下的手部檢測、與其他交互方式的融合、功能集成等�；谝曈X的手勢交互具有重要的科學(xué)價值和廣闊的應(yīng)用前景，隨著虛擬現(xiàn)實對沉浸式體驗需求的不斷增強，基于視覺的手勢交互必將在虛擬現(xiàn)實中發(fā)揮重要作用。

返回VR虛擬現(xiàn)實視頻道首頁