一、國際音視頻編碼技術標準回顧
20世紀90年代以來,ITU-T和ISO制定了一系列音視頻編碼技術標準(信源編碼技術標準)和建議,這些標準和建議的制定極大地推動了多媒體技術的實用化和產(chǎn)業(yè)化。從技術進步的角度看,1994年完成的第一代信源編碼技術標準MPEG-1和MPEG-2的壓縮能力為50-75倍。進入新世紀以來,第二代信源編碼技術標準相繼出臺,壓縮效率可達到100-150倍。第二代信源編碼技術標準將使原來剛剛形成不久的國際數(shù)字電視和數(shù)字音視頻產(chǎn)業(yè)格局重新“洗牌”。
國際上音視頻編解碼標準主要有兩大系列:ISO/IEC JTC1制定的MPEG系列標準,數(shù)字電視采用的是MPEG系列標準;ITU針對多媒體通信制定的H.26x系列視頻編碼標準和G.7系列音頻編碼標準。
CCITT(國際電報電話咨詢委員會,現(xiàn)并入國際電信聯(lián)盟ITU)從1984年開始提出一系列有關音頻編碼算法和國際標準。1984年CCITT第15研究組成立了一個專家組,專門研究電視電話的編碼問題,經(jīng)過5年以上的研究和努力,在1990年12月完成和批準了CCITT推薦書 H.261。在H.261的基礎上,1996年ITU-T完成了H.263編碼標準,在編碼算法復雜度增加很少的基礎上,H.263能提供更好的圖像質(zhì)量、更低的速率,目前,H.263編碼是IP視頻通信采用最多的一種編碼方法。1998年ITU-T推出的H.263+是H.263建議的第二版,它提供了12個新的可協(xié)商模式和其他特征,進一步提高了壓縮編碼性能。
MPEG是國際標準化組織和國際電工委員會第一聯(lián)合技術組(ISO/IEC JTC1)1988年成立的運動圖像專家組(Moving Picture Expert Group)的簡稱,全稱為ISO/IEC JTC1第29分委會第11工作組(ISO/IEC JTC1/SC29/WG11),負責數(shù)字視頻、音頻和其他媒體的壓縮、解壓縮、處理和表示等國際技術標準的制定工作。從1988年開始,MPEG專家組每年召開四次左右的國際會議,主要內(nèi)容是制定、修訂、發(fā)展MPEG系列多媒體標準。視音頻編碼標準MPEG-1(1992)和MPEG-2(1994)、基于視聽媒體對象的多媒體編碼標準MPEG-4(1999年)、多媒體內(nèi)容描述標準MPEG-7(2001)、多媒體框架標準MPEG-21。目前,MPEG系列國際標準已經(jīng)成為影響最大的多媒體技術標準,對數(shù)字電視、視聽消費電子產(chǎn)品、多媒體通信等信息產(chǎn)業(yè)的重要產(chǎn)品產(chǎn)生了深遠影響。
CCITT H.261標準始于1984年,實質(zhì)完成于1989年,是MPEG的先驅(qū)。MPEG-1和H.261有共同的數(shù)據(jù)結構、編碼工具和語法元素,然而兩者并非完全后向兼容,MPEG-1可看作是H.261的擴展集。MPEG-1的發(fā)展始于1988年,實質(zhì)完成于1992年。MPEG-2可被看作是MPEG-1的擴展集,始于1990年,實質(zhì)完成于1994年。H.263始于1992年,第一版完成于1995年。MPEG-4(其視頻部分建立在MPEG-2和H.263的基礎上)始于1993年,第一版實質(zhì)完成于1998年。
MPEG專家組已經(jīng)和正在制定的標準包括:
(1) MPEG-1標準:1992年11月正式成為國際標準,名稱為“用于數(shù)字存儲媒體速率為1.5Mbps的運動圖像及其伴音的壓縮編碼”。MPEG-1的支持的視頻參數(shù)為352 X 240 X 30幀/秒或相當。
(2) MPEG-2:1994年11月成為國際標準(ISO/IEC13818),這是一個適應性廣的動態(tài)影像和聲音編碼方案,最初目標是把視頻及其伴音信號壓縮到10Mb/s,經(jīng)實驗可適用于1.5-60Mb/s的編碼范圍,甚至還可以更高。MPEG-2可用于數(shù)字通信、存儲、廣播、高清晰度電視等的壓縮編碼。DVD和數(shù)字電視廣播采用的是MPEG-2標準。1994年后,MPEG-2標準還進行了一定擴展和修訂。
(3) MPEG-4:注意到低帶寬應用的需要和交互式圖形應用(游戲等合成內(nèi)容)、交互式多媒體(WWW等內(nèi)容分發(fā)和訪問技術)的快速發(fā)展,MPEG專家組成立了MPEG-4工作組,以促進上述三個領域的集成。1999年初,定義標準框架的MPEG-4(第一版)成為國際標準(ISO/IEC 14496-1),提供多種算法和工具的第二版已于99年底成為國際標準(ISO/IEC 14496-2),后續(xù)還在制定第三、四、五版。
(4) MPEG-7與MPEG-21標準:MPEG-7是面向多媒體信息搜索、過濾、管理和處理的內(nèi)容表達標準,2001年7月成為國際標準。正在制定的MPEG-21的重點是多媒體框架,為與多媒體內(nèi)容遞交相關的所有已開發(fā)的和正在開發(fā)的標準提供基礎體系。
二、第二代視頻編碼標準
1994年制定的MPEG-2標準和H.263標準是國際音視頻標準領域的一個里程碑,是音視頻行業(yè)遵循的基本標準。近十年來,音視頻編碼技術本身和產(chǎn)業(yè)應用背景都發(fā)生了明顯變化。ITU-T于1997年提出的一個長期的視頻標準化項目H.26L,ITU-T并在1999年8月推出該標準的第一版測試模型。為了響應ISO/IEC MPEG對先進視頻編碼技術的需求,從2001年開始,ISO和ITU開始組建了聯(lián)合視頻工作組(JVT,Joint Video Team ,ISO/IEC MPEG和ITU-T VCEG聯(lián)合視頻工作組),在H.26L的基礎上開發(fā)新的視頻編碼標準,即JVT標準。
JVT標準是一套兼顧廣播和電信、覆蓋從低碼率通信到高清晰電視的廣域標準。在ISO/IEC中,該標準的正式名稱為MPEG-4 AVC(Advanced Video Coding)標準;在ITU-T中的正式名稱為H.264標準。2003年下半年,ISO/IEC以MPEG-4第十部分(ISO/IEC 14496-10)的名義正式發(fā)布了這項標準。
雖然MPEG-4 AVC/H.264是第二代標準中的一個重要代表,但遠不如MPEG-2當年那樣一枝獨秀,而且面臨著多個來自企業(yè)和其他標準組織強有力的技術競爭。來自企業(yè)的競爭者以微軟提出的WMV9為代表。SMPTE(Society of Motion Picture and Television Engineers,美國電影與電視工程師協(xié)會)是得到美國國家標準研究所(ANSI)認證的視頻、電視和電影工業(yè)標準開發(fā)組織,在制定和發(fā)掘私有規(guī)范方面具有豐富經(jīng)驗。2003年09月,SMPTE接收WMV-9所采用的壓縮技術規(guī)范作為一種視頻編解碼格式標準,標準草案名稱為“SMPTE Standard for Television: VC-9 Compressed Video Bitstream Format and Decoding Process”,簡稱VC-1。2006年4月,SMPTE 正式發(fā)布VC-1。
AVS標準是中國數(shù)字音視頻編解碼技術標準工作組(AVS工作組)制定的數(shù)字音視頻編碼標準。AVS工作組成立于2002年,成員包括國內(nèi)外從事數(shù)字音視頻編碼技術和產(chǎn)品研究開發(fā)的一百多家機構和企業(yè)。AVS工作組的任務是面向我國的信息產(chǎn)業(yè)需求,組織制定行業(yè)和國家信源編碼技術標準。AVS國家標準的正式名稱是《信息技術 先進音視頻編碼》,編號為GB/T 20090,包括9個部分,其中《第2部分 視頻》(簡稱AVS視頻)于2006年2月頒布,3月實施。AVS視頻標準主要面向高清晰度和高質(zhì)量數(shù)字電視廣播、數(shù)字存儲媒體和其他相關應用。它具有四大特點:(1)性能高,編碼效率比MPEG-2高2倍以上,與H.264的編碼效率相當;(2)復雜度低,算法復雜度比H.264低;(3)實現(xiàn)成本低,軟硬件實現(xiàn)成本都低于H.264;(4)專利授權模式簡單,費用明顯低于同類標準。
AVS標準和相關國際標準的時間對應關系以及AVS工作組已經(jīng)開展的工作如下圖所示。
圖 1 視頻編碼標準與AVS標準發(fā)展過程
三、視頻壓縮基本原理
視頻能夠壓縮的根本原因在于視頻數(shù)據(jù)具有較高的冗余度。壓縮就是指冗余的消除,主要基于兩種技術:統(tǒng)計學和心理視覺。
消除統(tǒng)計冗余的基本依據(jù)是視頻數(shù)字化過程在時間和空間上采用了規(guī)則的采樣過程。視頻畫面數(shù)字化為規(guī)則的像素陣列,其密集程度適于表征每點最高的空間頻率,而絕大多數(shù)畫面幀包含非常少甚至不含這種最高頻率的細節(jié)。同樣,所選的幀頻能夠表征場景中最快的運動,而理想的壓縮系統(tǒng)只要描述場景所必需的瞬時運動即可。簡言之,理想的壓縮系統(tǒng)能夠動態(tài)適應視頻在時間和空間上的變化,所需要的數(shù)據(jù)量遠低于數(shù)字化采樣所產(chǎn)生的原始數(shù)據(jù)。
心理視覺技術主要是針對人類視覺系統(tǒng)極限。人類視覺在對比度帶寬、空間帶寬(特別是彩色視覺)、時間帶寬等方面存在極限。而且,這些極限并非相互獨立,整體的視覺系統(tǒng)存在上限,例如,人眼不可能同時察覺到時間和空間的高分辨率。顯然,沒有必要表征那些不能被感知的信息,或者說,一定程度的壓縮損失是人的視覺系統(tǒng)是感知不出來的。
視頻編碼標準并非一個單一的算法,而是一整套的編碼工具,這些工具綜合起來就達到了完整的壓縮效果。視頻壓縮的歷史可以追溯到上個世紀50年代初,在隨后30多年時間里,主要的壓縮技術和工具逐漸發(fā)展起來,在上世紀80年代初,視頻編碼技術初步成型。最初每個主要的工具都是作為視頻編碼的一個完整解決方案而提出,各條技術主線平行發(fā)展,最終各性能最佳者匯合成為完整的解決方案,方案集成的主要貢獻者是標準化組織,來自各國家和組織的專家們共同完成了方案集成工作,或者說,編碼標準方案是標準委員會原創(chuàng)的。另外,盡管有些技術多年前就已經(jīng)提出,但由于實現(xiàn)代價昂貴而沒能在當時得到實際應用,直到近年來半導體技術的發(fā)展才滿足實時視頻處理的要求。
圖 2編碼工具與標準的發(fā)展(Cliff, 2002)
四、MPEG標準中視頻編解碼技術
MPEG標準主要基于三大編碼工具:自適應塊變換編碼(Adaptive block transform coding)消除空間冗余;運動補償差分脈沖編碼調(diào)制(Motion-compensated DPCM)消除時域冗余,二者融合為混合編碼技術(hybrid coding)。熵編碼(Entropy coding)用于消除混合編碼器產(chǎn)生的統(tǒng)計冗余。還有一些輔助工具作為主要工具的補充,用于消除已編碼數(shù)據(jù)某些特殊部分的剩余冗余,或者根據(jù)具體應用對編碼進行調(diào)整,也有的編碼工具支持將數(shù)據(jù)格式化為特定比特流以便于存儲和傳輸。
現(xiàn)代熵編碼始創(chuàng)于20世紀40年代末;60年代末應用于視頻編碼;然后不斷改進,80年代中期引入了二維可變長編碼(2D VLC)和算術編碼(arithmetic coding)方法。
DPCM始創(chuàng)于1952年,同年首次應用于視頻編碼。DPCM最初是作為空間編碼技術而發(fā)展,到了70年代中期,DPCM開始用于時域編碼。DPCM作為一種完整的視頻編碼方案,一直持續(xù)到80年代初期。從70年代中早期開始,DPCM的關鍵元素與變換編碼技術融合,逐漸形成了混合編碼技術,并于80年代早期發(fā)展成為MPEG的雛形。
變換編碼60年代末首次用于視頻,70年代上半期得到實質(zhì)性的發(fā)展,被認為在空間編碼方面達到最高分辨率效果。在混合編碼中,變換編碼用于消除空間冗余,DCPM用于消除時間冗余。運動補償預測技術極大地提高了時域DCPM的性能,它始創(chuàng)于1969年,80年代初發(fā)展成為MPEG的基本形式。80年代早期,擴展出內(nèi)插編碼(interpolative coding),即通過多幀內(nèi)插進行預測,中間幀通過比例運動矢量(scaled motion vectors)預測。直至80年代末,雙向預測技術(bi-directional prediction)誕生,該技術才發(fā)展到最終形式。在近年來的進展中(H.264),預測質(zhì)量得到改進,亦即不同信號之間的相關性降低。因此,變換的必需性降低,H.264使用了簡化的變換(4 x4)。
MPEG1和H.261的前身是CCITT H.261標準(始于1984年,實質(zhì)性完成于1989年),它們有共同的數(shù)據(jù)結構、編碼工具和語法元素。然而兩者并非恰好后向兼容。MPEG1可看作是H.261的擴展集。MPEG1的發(fā)展始于1988年,實質(zhì)性完成于1992年。MPEG2可被看作是MPEG2的擴展集,始于1990,實質(zhì)完成于1994年。H.263始于1992年,第一版完成于1995。MPEG4(其視頻是建于MPEG2和.263基礎上)始于1993,第一版實質(zhì)完成于1998年。由于芯片等技術的允許,2003年完成的MPEG-4 AVC/H.264比先前的視頻編碼標準采用了更為復雜的技術,同時也有新的技術模塊??多尺寸塊的幀內(nèi)和幀間編碼、多方向空間預測技術、4x4整數(shù)正交變換、去除塊效應的環(huán)內(nèi)濾波器等,可以獲得更高的壓縮比。由于采用了數(shù)據(jù)劃分,JVT標準還具有更強的容錯能力。
五、AVS標準及其核心技術
AVS是我國自主制定的第二代音視頻編碼技術標準。AVS視頻當中具有特征性的核心技術包括:8x8整數(shù)變換、量化、幀內(nèi)預測、1/4精度像素插值、特殊的幀間預測運動補償、二維熵編碼、去塊效應環(huán)內(nèi)濾波等。
1)變換、量化
AVS的8x8變換與量化可以在16位處理器上無失真地實現(xiàn),從而克服了MPEG-4 AVC/ H.264之前所有視頻壓縮編碼國際標準中采用的8x8 DCT變換存在失真的固有問題。而MPEG-4 AVC/ H.264所采用的4x4整數(shù)變換在高分辨率的視頻圖像上的去相關性能不及8x8的變換有效。AVS采用了64級量化,可以完全適應不同的應用和業(yè)務對碼率和質(zhì)量的要求。在解決了16位實現(xiàn)的問題后,目前AVS所采用的8x8變換與量化方案,既適合于16位DSP或其他軟件方式的快速實現(xiàn),也適合于ASIC的優(yōu)化實現(xiàn)。
2)幀內(nèi)預測
AVS的幀內(nèi)預測技術沿襲了MPEG-4 AVC/ H.264幀內(nèi)預測的思路,用相鄰塊的像素預測當前塊,采用代表空間域紋理方向的多種預測模式。但AVS亮度和色度幀內(nèi)預測都是以8x8塊為單位的。亮度塊采用5種預測模式,色度塊采用4種預測模式,而這4種模式中又有3種和亮度塊的預測模式相同。在編碼質(zhì)量相當?shù)那疤嵯,AVS采用較少的預測模式,使方案更加簡潔、實現(xiàn)的復雜度大為降低。
3)多模式幀間預測
幀間運動補償編碼是混合編碼技術框架中最重要的部分之一。AVS標準采用了16×16、16×8、8×16和8×8的塊模式進行運動補償,而去除了MPEG-4 AVC/ H.264標準中的8×4、4×8、4×4的塊模式,目的是能更好地刻畫物體運動,提高運動搜索的準確性。實驗表明,對于高分辨率視頻,AVS選用的塊模式已經(jīng)能足夠精細地表達物體的運動。較少的塊模式,能降低運動矢量和塊模式傳輸?shù)拈_銷,從而提高壓縮效率、降低編解碼實現(xiàn)的復雜度。
4)1/4像素運動補償
AVS和MPEG-4 AVC/ H.264都采用了1/4像素精度的運動補償技術。MPEG-4 AVC/ H.264采用6抽頭濾波器進行半像素插值并采用雙線性濾波器進行1/4像素插值。而AVS采用了不同的4抽頭濾波器進行半像素插值和1/4像素插值,在不降低性能的情況下減少插值所需要的參考像素點,減小了數(shù)據(jù)存取帶寬需求,這在高分辨率視頻壓縮應用中是非常有意義的。
5)參考幀
在傳統(tǒng)的視頻編碼標準(MPEG-x系列與H.26x系列)中,雙向預測幀B幀都只有一個前向參考幀與一個后向參考幀,而前向預測幀P 幀則只有一個前向參考幀。而新近的MPEG-4 AVC/ H.264充分地利用圖片之間的時域相關性,允許P幀和B幀有多個參考幀,最多可以有31個參考幀。多幀參考技術在提高壓縮效率的同時也將極大地增加存儲空間與數(shù)據(jù)存取的開銷。AVS中P幀可以利用至多2幀的前向參考幀,而B幀采用前后各一個參考幀,P幀與B幀(包括后向參考幀)的參考幀數(shù)相同,其參考幀存儲空間與數(shù)據(jù)存取的開銷并不比傳統(tǒng)視頻編碼的標準大,而恰恰充分利用了必須預留的資源。
6)1/4像素運動補償
AVS的B幀的雙向預測使用了直接模式(direct mode)、對稱模式(symmetric mode)和跳過模式(skip mode)。使用對稱模式時,碼流只需要傳送前向運動矢量,后向運動矢量可由前向運動矢量導出,從而節(jié)省后向運動矢量的編碼開銷。對于直接模式,當前塊的前、后向運動矢量都是由后向參考圖像相應位置塊的運動矢量導出,無需傳輸運動矢量,因此也可以節(jié)省運動矢量的編碼開銷。跳過模式的運動矢量的導出方法和直接模式的相同,跳過模式編碼的塊其運動補償?shù)臍埐钜簿鶠榱,即該模式下宏塊只需要傳輸模式信號,而不需要傳輸運動矢量、補償殘差等附加信息。
7)熵編碼
AVS熵編碼采用自適應變長編碼技術。 在AVS熵編碼過程中,所有的語法元素和殘差數(shù)據(jù)都是以指數(shù)哥倫布碼的形式映射成二進制比特流。采用指數(shù)哥倫布碼的優(yōu)勢在于:一方面,它的硬件復雜度比較低,可以根據(jù)閉合公式解析碼字,無需查表;另一方面,它可以根據(jù)編碼元素的概率分布靈活地確定以k階指數(shù)哥倫布碼編碼,如果k選得恰當,則編碼效率可以逼近信息熵。
對預測殘差的塊變換系數(shù),經(jīng)掃描形成(level、run)對串,level、run不是獨立事件,而存在著很強的相關性,在AVS中l(wèi)evel、run采用二維聯(lián)合編碼,并根據(jù)當前l(fā)evel、run的不同概率分布趨勢,自適應改變指數(shù)哥倫布碼的階數(shù)。
AVS視頻目前定義了一個檔次(profile)即基準檔次。該基準檔次又分為6個級別(level),分別對應高清晰度、標準清晰度與CIF(1/4標清,相當于VHS或VCD質(zhì)量)應用。 與MPEG-4 AVC/ H.264的baseline profile相比,AVS視頻增加了B幀、interlace等技術,因此其壓縮效率明顯提高,而與MPEG-4 AVC/ H.264的main profile相比,又減少了CABAC等實現(xiàn)難度大的技術,從而增強了可實現(xiàn)性。
AVS視頻的主要特點是應用目標明確,技術有針對性。因此在高分辨率應用中,其壓縮效率明顯比現(xiàn)在在數(shù)字電視、光存儲媒體中常用的MPEG-2視頻提高一個層次。在壓縮效率相當?shù)那疤嵯,又較MPEG-4 AVC/ H.264的 main profile的實現(xiàn)復雜度大為降低。