搜索新聞

視頻壓縮標準的技術(shù)原理及其發(fā)展

來源：視頻網(wǎng)　更新日期：2006-06-30 作者：佚名

年度評選盛典獲獎揭曉 Infocomm China 深入報道年度商顯市場最大的看點何在

1多媒體及視訊技術(shù)

隨著互聯(lián)網(wǎng)的飛速發(fā)展，消費類電子、通信、影視及廣播、計算機技術(shù)日益緊密地結(jié)合起來，使得基于互聯(lián)網(wǎng)的多媒體產(chǎn)業(yè)成為本世紀初發(fā)展最快、規(guī)模最大的產(chǎn)業(yè)之一。

　　多媒體是建立在計算機圖形學、人機接口技術(shù)、傳感技術(shù)和人工智能等學科基礎(chǔ)上的綜合性極強的高新信息技術(shù)，由其帶來的虛擬現(xiàn)實技術(shù)能創(chuàng)造身臨其境的神奇效果，從而廣泛應(yīng)用于影視、廣告、游戲、教育、會展等領(lǐng)域。2002年全球多媒體產(chǎn)業(yè)產(chǎn)值達300億美元，今年將突破400億美元。前不久，北京經(jīng)濟廣播多媒體財經(jīng)頻道正式運行，實現(xiàn)了廣播節(jié)目既可以聽又可以看的多項全新的廣播服務(wù)功能。北京經(jīng)濟廣播的多媒體財經(jīng)頻道可以全天24小時不間斷地提供全球的外匯市場的行情、報價、市場信息以及與外匯市場相關(guān)的國內(nèi)國際重要財經(jīng)新聞等信息，同時還可以使用節(jié)目中提供的“匯眼”市場分析軟件，自己對市場進行分析，研判外匯市場的走勢。從這個實際例子中也可以看到多媒體業(yè)務(wù)的大部分應(yīng)用都與視訊技術(shù)相關(guān)。在中國市場，視訊技術(shù)主要應(yīng)用于政府會議。

　　由于政府的工作性質(zhì)和政府對提高辦公效率的需求，這部分應(yīng)用還會繼續(xù)增加。另一方面，隨著以聯(lián)通、網(wǎng)通為代表的新電信運營商的崛起和企業(yè)內(nèi)部基于IP的寬帶基礎(chǔ)網(wǎng)絡(luò)的建設(shè)，把需要占用較多帶寬的視頻通訊應(yīng)用到寬帶網(wǎng)絡(luò)上，將成為視訊技術(shù)加速發(fā)展的新動力。

2.1視頻壓縮標準的發(fā)展

　　傳統(tǒng)的壓縮編碼是建立在香農(nóng)（Shannon）信息論基礎(chǔ)上的，它以經(jīng)典的集合論為基礎(chǔ)，用統(tǒng)計概率模型來描述信源，但它未考慮信息接受者的主觀特性及事件本身的具體含義、重要程度和引起的后果。因此，壓縮編碼的發(fā)展歷程實際上是以香農(nóng)信息論為出發(fā)點，一個不斷完善的過程。

　　從不同角度考慮，數(shù)據(jù)壓縮縮碼具有不同的分類方式。

　　按信源的統(tǒng)計特性可分為預測編碼、變換編碼、矢量量化編碼、子帶－小波編碼、神經(jīng)網(wǎng)絡(luò)編碼方法等。

　　數(shù)眼的視覺特性可能基于方向濾波的圖像編碼、基于圖像輪廓－紋理的編碼方法等。

　　按圖像傳遞的景物特性可分為分形編碼、基于內(nèi)容的編碼方法等。

　　隨著產(chǎn)業(yè)化活動的進一步開展，國際標準化組織于1986年、1998年先后成立了聯(lián)合圖片專家組JPEG和運動圖像壓縮編碼組織MPEG。GPEG專家組主要致力于靜態(tài)圖像的幀內(nèi)壓縮編碼標準ISO/IEC10918的制定；MPEG專家組主要致力于運動圖像壓縮編碼標準的制定。經(jīng)過專家組不懈的努力，基于第一代壓縮編碼方法（如預測編碼、變換編碼、熵編碼及運動補償?shù)龋┑娜N壓縮編碼國際標

視頻技術(shù)

　　眾所周知，人類通過視覺獲取的信息量約占總信息量的70％，而且視頻信息具有直觀性、可信性等一系列優(yōu)點。所以，視訊技術(shù)中的關(guān)鍵技術(shù)就是視頻技術(shù)。

　　目前，視頻技術(shù)的應(yīng)用范圍很廣，如網(wǎng)上可視會議、網(wǎng)上可視電子商務(wù)、網(wǎng)上政務(wù)、網(wǎng)上購物、網(wǎng)上學校、遠程醫(yī)療、網(wǎng)上研討會、網(wǎng)上展示廳、個人網(wǎng)上聊天、可視咨詢等業(yè)務(wù)。

　　但是，以上所有的應(yīng)用都必須壓縮。傳輸?shù)臄?shù)據(jù)量之大，單純用擴大存儲器容量、增加通信干線的傳輸速率的辦法是不現(xiàn)實的，數(shù)據(jù)壓縮技術(shù)是個行之有效的解決辦法，通過數(shù)據(jù)壓縮，可以把信息數(shù)據(jù)量壓下來，以壓縮形式存儲、傳輸，既節(jié)約了存儲空間，又提高了通信干線的傳輸效率，同時也可使計算機實時處理音頻、視頻信息，以保證播放出高質(zhì)量的視頻、音頻節(jié)目�？梢姡嗝襟w數(shù)據(jù)壓縮是非常必要的。由于多媒體聲音、數(shù)據(jù)、視像等信源數(shù)據(jù)有極強的相關(guān)性，也就是說有大量的冗余信息。數(shù)據(jù)壓縮可以將龐大數(shù)據(jù)中的冗余信息去掉（去除數(shù)據(jù)之間的相關(guān)性），保留相互獨立的信息分量，因此，多媒體數(shù)據(jù)壓縮是完全可以實現(xiàn)的。

　　圖像編碼方法可分為兩代：第一代是基于數(shù)據(jù)統(tǒng)計，去掉的是數(shù)據(jù)冗余，稱為低層壓縮編碼方法；第二代是基于內(nèi)容，去掉的是內(nèi)容冗余，其中基于對象（Object－Based）方法稱為中層壓縮編碼方法，其中基于語義（Syntax－Based）方法稱為高層壓縮編碼方法。

　　基于內(nèi)容壓縮編碼方法代表新一代的壓縮方法，也是目前最活躍的領(lǐng)域，最早是由瑞典的Forchheimer提出的，隨后日本的Harashima等人也展示了不少研究成果。

2.2運動估計和補償

　　MPEG－4中提供了基于塊的運動估計和補償技術(shù)來有效地利用各個VOP中視頻內(nèi)容上的時間冗余。一般，運動估計和補償可以看作針對任意形狀圖像序列的塊匹配技術(shù)的延伸。塊匹配過程對于標準宏塊使用；預測誤差和用于預測的宏塊運動向量一起被編碼；高級運動補償模式支持重疊塊運動補償，可對8×8塊運動向量進行編碼。為了使運動估計得到高編碼效率，預測圖像和被預測圖像越相似越好，所以在運動估計之前要先進行補償。在目標邊界上的MB先用水平填補而后用垂直填補，其余完全在VOP之外的MB用擴張?zhí)钛a。

2.3紋理編碼

　　紋理指的是I－VOP圖像和P/B－VOP經(jīng)運動補償后殘留的圖像信息。紋理一般在變換域進行壓縮編碼和熵編碼。

　　準正式編輯已經(jīng)出版：靜態(tài)圖像壓縮編碼標準（JPEG）；數(shù)字聲像儲存壓縮編碼標準（MPEG－1）；通用視頻圖像壓縮編碼標準（MPEG－2）。

　　隨后，MPEG專家組于1999年2月正式公布了MPEG－4（ISO/IEC14496）V1.0版本。同年底MPEG－4V2.0版本亦告完成，且于2000年年初正式成為國際標準。MPEG－4標準將眾多的多媒體應(yīng)用集成于一個完整的框架內(nèi)，旨在為多媒體通信及應(yīng)用環(huán)境提供標準的算法及工具，從而建立起一種能被多媒體傳輸、存儲、檢索等應(yīng)用普遍采用的統(tǒng)一數(shù)據(jù)格式，并根據(jù)不同的應(yīng)用需求，現(xiàn)場配置解碼器，開放的編碼系統(tǒng)也可隨時加入新的有效的算法模塊。為支持對視頻內(nèi)容的訪問，MPEG－4提出了“視頻對象”的概念。

　　目前，MPEG專家組又推出了專門支持多媒體信息且基于內(nèi)容檢索的編碼方案MPEG－7及多媒體框架標準MPEG－21。另外，由ITU－T和MPEG聯(lián)合開發(fā)的新標準H.264是最新的視頻編碼算法。為了降低碼率，獲得盡可能更好圖像質(zhì)量，H.264標準吸取了MPEG－4的長處，具有更高的壓縮比、更好的信道適應(yīng)性，必將在數(shù)字視頻的通信和存儲領(lǐng)域得到廣泛的應(yīng)用，其發(fā)展?jié)摿Σ豢上蘖俊?BR>
3MPEG－4的主要技術(shù)

　　MPEG－4具有很多優(yōu)點。它的壓縮率可以超過100倍，而仍保有極佳的音質(zhì)和畫質(zhì)；它可利用最少的數(shù)據(jù)，獲取最佳的圖像質(zhì)量，滿足低碼率應(yīng)用的需求；它更適合于交互式AV服務(wù)及遠程監(jiān)控。為了滿足各種應(yīng)用的需求，MPEG－4標準的使用范圍相當龐大，具有廣泛的適應(yīng)性和可擴展性。

3.1形狀編碼

　　形狀信息的獲得首先要對圖形進行分析和分割，把各個代表不同內(nèi)容的目標分割后再用形狀表示。形狀信息通常用二值A(chǔ)lpha平面和灰度Alpha平面來表示。二值A(chǔ)lpha平面可用臨近信息進行算術(shù)編碼（CAE）；灰度Alpha平面可用運動補償加DCT變換方式類似紋理編碼一樣進行編碼。

　　其中用于圖像壓縮的變換有離散Forier變換（DFT）、離散小波變換（DWT）、奇異值分解（SVD）、K－L變換、Walsh變換、Hadamard變換、Harr變換、Slant變換、離散余弦變換（DCT）。其中K－L變換的去相關(guān)性最好，而DCT是接近K－L變換效果的最便于實現(xiàn)的變換。和MPEG－1/2一樣，MPEG－4也選擇了DCT。通常，用于數(shù)據(jù)壓縮的熵編碼方法有霍夫曼（Huffman）編碼、矢量量化、算術(shù)編碼、游程編碼、LZW編碼等。對于紋理編碼，MPEG－4選擇了把游程編碼、矢量量化和Huffman編碼進行混合編程編碼（VLC）。紋理編碼要經(jīng)過DCT變換、量化、DC/AC預測、掃描、基于Hufman的VLC編碼。

3.2伸屈性

　　視頻的伸屈性，包括空間伸屈性和時間伸屈性�？臻g伸屈性可以得到不同的空間分辨率，時間伸屈性可得到不同的時間分辨率。每種伸屈都有多層，在只有高低2層的情況下，底層指的是基本層，而高層指的是增強層。

3.3差錯回避

　　VLC碼中的一個比特錯誤會引起同步丟失，而運動補償則會引起錯誤傳遞。

　　MPEG－4的差錯回避有三個方面：重同步、數(shù)據(jù)恢復和錯誤隱藏。

　　重同步，是指差錯被檢測后，解碼器和碼流之間重新同步的技術(shù)。一般來說，這種方法會將錯誤之前的同步點到重建的同步點之間的數(shù)據(jù)丟棄。不過這些丟棄的數(shù)據(jù)可以用其他的技術(shù)進行恢復和實施錯誤隱藏。

　　數(shù)據(jù)恢復工具在解碼器和碼流重新建立起同步后用來恢復丟棄的數(shù)據(jù)。這些工具不是簡單的用容錯碼恢復，而是用一種差錯回避手段，即用可逆VLC碼字進行VLC編碼。

　　錯誤隱藏，在重同步有效地將錯誤定位后可以很容易處理。為了進一步提高錯誤隱匿的能力，有必要增加錯誤定位能力，特別是數(shù)據(jù)分割可以用來提高錯誤定位能力。

4 結(jié)束語

　　隨著經(jīng)濟的發(fā)展、通信技術(shù)的日益提高，客戶已不僅僅滿足于語音、電報、電子郵件等的通信方式，對視訊業(yè)務(wù)的需求呈迅猛發(fā)展的趨勢。特別是美國“9·11"事件后，全球的視訊業(yè)務(wù)需求猛增�，F(xiàn)有的視訊業(yè)務(wù)應(yīng)用主要以政府部門會議為主，在遠程教育、遠程醫(yī)療以及商用方面的應(yīng)用很少，而國外90％的企業(yè)都在使用視訊業(yè)務(wù)，已是“信息高速公路”的主體通信業(yè)務(wù)，因此市場潛力巨大。在視訊業(yè)務(wù)中使用的視頻壓縮技術(shù)，其發(fā)展和應(yīng)用前景也是非常廣闊的。

返回視頻會議系統(tǒng)頻道首頁