數(shù)字圖像處理第8章數(shù)字視頻處理.ppt
《數(shù)字圖像處理第8章數(shù)字視頻處理.ppt》由會員分享,可在線閱讀,更多相關《數(shù)字圖像處理第8章數(shù)字視頻處理.ppt(62頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1,第8章數(shù)字視頻處理,8.1視頻技術及其應用8.2快速運動估計技術8.3視頻壓縮技術8.4視頻壓縮標準,2,8.1視頻技術及其應用,與靜止圖像相反,視頻(Video)為活動圖像(或運動圖像)。我們所看到的電影和電視都屬于視頻的范疇,它實際上是由許多單一的畫面所組成,每一幅畫面稱為一幀。由于人眼的視覺惰性,每秒24幀的電影畫面就形成了連續(xù)活動影象感覺的電影。因此,幀是構成視頻信息的最小和最基本的單元。,3,8.1.1視頻信號的數(shù)字化,大家日常使用的電視和錄像等都屬于模擬視頻,它是基于模擬技術以及圖像的廣播與顯示所確定的國際標準。模擬視頻圖像具有成本低和還原度好等優(yōu)點。因此在電視上看到的風景錄象,往往具有身臨其境的感覺。但它的最大缺點是經(jīng)過長時間的存放之后,視頻質(zhì)量將大為降低,而且經(jīng)過多次復制之后,圖像的失真就會很明顯。而數(shù)字視頻可以彌補這些缺陷。它不僅可以無失真地進行無限次復制,而且還可以對視頻進行創(chuàng)造性的編輯,如特技效果等。而數(shù)字視頻是基于數(shù)字技術以及其它更為拓展的圖像顯示標準。數(shù)字視頻有兩層涵義,一是模擬視頻信號輸入計算機進行數(shù)字化視頻編輯,最后制成數(shù)字視頻產(chǎn)品;二是指視頻圖像由數(shù)字攝象機拍攝下來,從信號源開始,就是無失真的數(shù)字硯頻,視頻圖像輸入計算機時不再者慮視頻質(zhì)量的衰臧問題?,F(xiàn)在的數(shù)字視頻技術主要還是第一層涵義,即模擬視頻的數(shù)字化處理、存儲和輸出技術。,4,視頻的數(shù)字化是指在一段時間內(nèi)以一定的速度對模擬頻信號進行捕捉并加以采樣后形成數(shù)字化數(shù)據(jù)的處理過程。通常的視頻信號都是模擬的,在進入計算機前必須進行數(shù)字化處理,即A/D轉換和彩色空間變換等。視頻信號數(shù)字化是對視頻信號進行采樣捕獲,其采樣深度可以是8、16或24位等。采樣深度是經(jīng)采樣后每幀所包含的顏色位,然后將來樣后所得數(shù)據(jù)保存起來,以便對它進行編輯、處理和播放。視頻信號的采集就是將模擬視頻信號經(jīng)硬件數(shù)字化后,再將數(shù)字化數(shù)據(jù)加以存儲。使用時,將數(shù)字化數(shù)據(jù)從存儲介質(zhì)中讀出,并還原成圖象信號加以輸出。視頻信號的采集可分為單幅畫面采集和多幅動態(tài)連續(xù)采集。在單幅畫面采集時,可以將輸入的視頻信息定格,并將定格后的單幅畫面以多種圖象文件格式加以存儲,對于多幅動態(tài)連續(xù)采集,可對視頻信號進行實時,動態(tài)地捕獲和壓縮,并以文件形式存儲。對視頻信號進行數(shù)字化采樣后,則可以對數(shù)字視頻進行編輯或加工。比如復制、刪除、特技變換和改變視頻格式等。,5,8.1.2視頻信號的處理,視頻信號處理是指根據(jù)人的要求對視頻圖像進行某種處理,主要包括:(1)在保證一定圖像質(zhì)量的前提下盡可能壓縮視頻圖像的數(shù)據(jù)量(即視頻壓縮)。(2)消除視頻信號產(chǎn)生、獲取和傳輸過程中引入的失真和干擾,使視頻信號盡可能逼真地重現(xiàn)景物。例如使用圖像增強技術和圖像恢復技術。(3)根據(jù)某些準則,盡可能除去視頻圖像中的無用信息而突出其主要信息。(4)從視頻圖像中提取某些特征,以便對其進行描述、分類和識別。,6,8.1.3視頻信號的壓縮編碼,壓縮目標是在盡可能保證視覺效果的前提下減少視頻數(shù)據(jù)率。由于視頻是連續(xù)的靜態(tài)圖像,因此其壓縮編碼算法與靜態(tài)圖像的壓縮編碼算法有某些共同之處,但視頻還有其自身的特性,因此壓縮時還應考慮其運動特性才能達到高壓縮的目標。在視頻壓縮中常需用以下的一些基本概念:(1)有損和無損壓縮:在視頻壓縮中有損和無損的概念與靜態(tài)圖像中基本類似。(2)幀內(nèi)和幀間壓縮:幀內(nèi)(Intraframe)壓縮也稱為空間壓縮(SpatialCompression)。當壓縮一幀圖像時,僅考慮本幀的數(shù)據(jù)而不考慮相鄰幀之間的冗余信息,這實際上與靜態(tài)圖像壓縮類似。幀內(nèi)一般采用有損壓縮算法,由于幀內(nèi)壓縮時各個幀之間沒有相互關系,所以壓縮后的視頻數(shù)據(jù)仍可以以幀為單位進行編輯。幀內(nèi)壓縮一般達不到很高的壓縮。,7,采用幀間(Interframe)壓縮是基于許多視頻或動畫的連續(xù)前后兩幀具有很大的相關性,或者說前后兩幀信息變化很小的特點。也即連續(xù)的視頻其相鄰幀之間具有冗余信息,根據(jù)這一特性,壓縮相鄰幀之間的冗余量就可以進一步提高壓縮量,減小壓縮比。幀間壓縮也稱為時間壓縮(Temporalcompression),它通過比較時間軸上不同幀之間的數(shù)據(jù)進行壓縮。幀間壓縮一般是無損的。如:幀差值(Framedifferencing)算法通過比較本幀與相鄰幀之間的差異,僅記錄本幀與其相鄰幀的差值,這樣可以大大減少數(shù)據(jù)量。,8,(3)對稱和不對稱編碼:對稱(symmetric)意味著壓縮和解壓縮占用相同的計算處理能力和時間,對稱算法適合于實時壓縮和傳送視頻,如視頻會議應用就以采用對稱的壓縮編碼算法為好。而在電子出版和其它多媒體應用中,一般是把視頻預先壓縮處理好,爾后再播放,因此可以采用不對稱(asymmetric)編碼。不對稱或非對稱意味著壓縮時需要花費大量的處理能力和時間,而解壓縮時則能較好地實時回放,也即以不同的速度進行壓縮和解壓縮。,9,8.1.4視頻信號的傳輸與存儲,為了有效而高質(zhì)量地傳輸視頻信號,需要解決以下幾個問題:(1)視頻信號在傳輸過程中會引入各種干擾和噪聲,如何降低甚至消除這些噪聲和干擾,是視頻信號傳輸要解決的首要問題。通常的解決辦法有:采用糾錯編碼、自適應均衡和自適應濾波等。(2)為了節(jié)省頻帶,除了使用高效壓縮技術壓縮信源信息外,還可以使用先進的數(shù)字調(diào)制技術,例如殘留邊帶調(diào)制(VSB)、正交幅度調(diào)制(QAM)和格狀編碼調(diào)制(TCM)等。(3)視頻信號除可通過廣播傳輸外,還可通過有線電視、光纖、微波等進行傳輸。隨著窄帶綜合業(yè)務數(shù)字網(wǎng)的普及和寬帶綜合業(yè)務數(shù)字網(wǎng)的發(fā)展,視頻通信的前景將會更加光明。,10,對于模擬電視信號,最常見的存儲媒體是錄像帶。另一種存儲模擬視頻信號的媒體是激光影碟(LD)。但1994年出現(xiàn)了建立在激光唱盤(CD)基礎上的視頻激光視盤(V-CD)。后者采用MPEG-l標準,可以在標準的12厘米CD上存儲74分鐘VHS質(zhì)量的視頻節(jié)目和具有CD質(zhì)量的立體聲。V-CD與世界的所有廣播電視制式兼容,易于使用和存放,而且生產(chǎn)成本也較低。播放V-CD既可使用多媒體計算機,也可使用專門的V-CD播放機。由于數(shù)字視盤(DVD)采用了MPEG-2標準中的MP@ML標準,所以視頻圖像質(zhì)量大大優(yōu)于V-CD,而音頻部分采用杜比公司開發(fā)的AC-3系統(tǒng),其圖像和聲音質(zhì)量將超過其它系統(tǒng)。,11,8.1.5視頻技術的應用,(1)視頻技術在廣播電視中的應用廣播電視是視頻技術的傳統(tǒng)領域,早期的黑白電視和現(xiàn)仍廣泛使用的彩色電視及其相關產(chǎn)品,采用的是模擬視頻技術,而數(shù)字電視(常規(guī)數(shù)字電視、電視電話、會議電視和高清晰度電視)全面使用數(shù)字視頻技術,其編碼、存儲、傳輸和播放都實行數(shù)字化。數(shù)字視頻技術在廣播電視中的應用主要包括:地面電視廣播、衛(wèi)星電視廣播、數(shù)字視頻廣播、衛(wèi)星電視直播、有線電視、交互式電視、常規(guī)電視和高清晰度電視等。,12,(2)視頻技術在通信領域中的應用以前視頻通信一直局限于傳輸單向的模擬電視,在通信網(wǎng)中,高質(zhì)量的彩色數(shù)字視頻通信要占用34Mbps以上的帶寬,因而很不經(jīng)濟。由于視頻壓縮技術的發(fā)展,使得視頻信號的數(shù)碼率大大降低。另一方面,通信技術的迅速發(fā)展又為視頻通信提供了所需的帶寬。視頻技術在通信領域中的應用主要包括:電視電話、會議電視、多媒體通信、視頻點播、常規(guī)電視和高清晰度電視、交互式電視以及視頻數(shù)據(jù)庫等。,13,(3)視頻技術在娛樂領域中的應用電視機及其相關產(chǎn)品長久不衰的原因在于它是大眾娛樂消費產(chǎn)品,電視是目前人類最重要的信息傳播媒體,它對人類生活的影響之大,簡直難以用語言表達,它已成為人們生活的重要組成部分。視頻技術賴以生存和迅速發(fā)展的基礎在于娛樂領域,其主要應用包括:常規(guī)電視和高清晰度電視、記錄、存儲和顯示設備、V-CD和DVD、交互式電視、電視電話、電視購物、視頻點播和視頻游戲等。(4)視頻技術在計算機領域中的應用視頻技術已廣泛應用到計算機領域。現(xiàn)在高檔計算機幾乎都配置有視頻解壓縮卡、CD-ROM和視頻播放軟件,這種多媒體計算機集視頻畫面的真實性和計算機的交互性于一體,已成為當前計算機領域的熱門話題。視頻技術在計算機領域中的應用主要包括:多媒體計算機、CD-ROM和V-CD、視頻數(shù)據(jù)庫、多媒體通信、交互式電視、三維圖形圖像、動畫設計與制作、視頻制作以及虛擬現(xiàn)實(VR)等。,14,8.2快速運動估計技術,視頻序列在時間上有很強的相關性,利用運動估計和運動補償技術可以有效地去除圖像的幀間冗余度,從而實現(xiàn)比幀內(nèi)壓縮方案更高的壓縮比。因此這種技術已廣泛用于視頻壓縮的一些國際標準,如H.261、H.263、MPEG-1、MPEG-2和MPEG-4等。作為幀間壓縮的核心和關鍵,運動估計技術受到了人們的廣泛關注,出現(xiàn)了多種研究方案,主要有光流方程法、像素遞歸法和塊匹配法(BMA:BlockMatchingAlgorithm)三種。綜合考慮計算復雜度和編碼效率等因素,塊匹配法由于簡單實用,已經(jīng)成為運動估計算法的主流。,15,8.2.1運動估計模型,活動圖像(視頻)編碼主要研究由物體和攝像機的相對運動而形成的二維運動。假定運動物體在幀間做平移運動,相對應的運動模型可以表示為:u=x+Vx,v=y+Vy當運動物體在幀間有旋轉、形狀和大小等變化時,采用上式所表示的運動模型作運動估計,會產(chǎn)生很大的估計誤差。為了解決這個問題,有人提出了如下12個參數(shù)的運動模型:,這種運動模型雖然能有效地估計運動物體的平移、旋轉和縮放等不同的運動變化,但需要進行很復雜的參數(shù)估計,因此并不實用。,16,上述模型都是基于運動物體的,然而在視頻編碼過程中把圖像分割成有不同運動的物體非常困難。通常采用兩種比較簡單的方法:一種方法是把圖像分成若干矩形塊,假定塊做平移運動,對塊的運動進行匹配估計;另一種方法是對每個像素的位移進行遞歸估計。通常像素遞歸估計的精度高,對多運動畫面的適應性強,但它的跟蹤范圍小,實現(xiàn)復雜。塊匹配運動估計雖然精度低,但它的位移跟蹤能力強,容易實現(xiàn),因而得到了廣泛的應用,并被H.26x和MPEG標準采用。,17,8.2.2塊匹配運動估計的原理,塊匹配的基本思想就是將當前幀分成若干個大小相同的塊,對每一個塊(當前塊)分別在參考幀中的一定區(qū)域(稱為搜索窗)內(nèi),按照一定的匹配準則搜索與之最接近的塊(稱為預測塊),預測塊與當前塊間的位移稱為運動矢量,它們的像素間的差值稱為殘差塊,預測塊與當前塊之間通過匹配準則函數(shù)得到的值稱為塊失真度(BDM)。這樣當前幀中的每一塊都可用一個殘差塊和一對運動矢量來表示。圖8-1為塊匹配運動估計的示意圖。,圖8-1塊匹配運動估計示意圖,18,這里,搜索窗尺寸(搜索范圍)的選取對搜索結果有很大影響:搜索范圍越大,得到更小殘差塊的可能性越大,但這會帶來更大的時間開銷。通常選擇的搜索范圍有7,16,32,48,64,128等。由于塊匹配時需要在前后幀間逐像素比較,如果采用全搜索算法(即窮盡參考幀搜索區(qū)域所有可能的點進行比較,從中找到全局最優(yōu)點),計算量非常巨大。如對格式為CIF(352288)的圖像,若塊大小為1616,當搜索范圍為16時,每個塊的搜索點數(shù)為1089,每幀圖像的搜索點數(shù)則達到431244;當搜索范圍為128時,每幀圖像的搜索點數(shù)將達到26155404,因此快速塊匹配算法的研究是非常必要的。,顯然,殘差塊的值越小,越有利于壓縮。因此運動估計的主要目標就是使預測塊與當前塊之間的BDM盡量小,即:,19,8.2.3塊匹配運動估計的各個環(huán)節(jié),塊匹配運動估計可從三個方向進行研究:(1)塊形狀與大??;(2)塊匹配準則;(3)搜索策略。目前,塊形狀與大小以及塊匹配準則由于相對簡單,已經(jīng)有了比較一致的選擇;而搜索策略最為復雜,它決定了一個算法的好壞,因此一直是快速運動估計研究的主要方向。,20,8.2.3.1塊形狀與大小,塊匹配法隱含著如下假設:同一塊內(nèi)的像素的運動是一致的。顯然這個假設具有一定的片面性,但選擇合適的塊形狀與大小可在一定程度上消除這種片面性。一般來說,塊形狀選用正方形是比較自然的選擇,這樣既便于圖像的劃分,又有利于塊匹配準則函數(shù)的計算。但這并非總是最佳選擇,因此也有的算法采用了其它形狀。,21,關于塊的大小,顯然塊越小,得到的殘差塊越小,但這會引入較多的運動矢量,可能降低編碼的效率。作為折衷,通常選擇1616和88像素的正方形塊。在H.261、MPEG-1和MPEG-2中,運動矢量是以1616的宏塊為單位的,由于塊尺寸相對較大,可能包含圖像中不同的運動部分,造成預測精度的下降;在H.263和MPEG-4中標準則在宏塊運動矢量的基礎上加入了以88塊的運動矢量,預測精度得到了一定的提高。另外,有的運動估計算法,如分級塊匹配法采用的是塊大小可變的方案。其基本思想是從最低分辨率級開始,在每一層依次進行運動估計。較低分辨率用于確定相對較大塊的位移的初略估計,接著把低分辨率級位移矢量的估計值傳遞到下一個高分辨率級,較高分辨率級用于精確調(diào)整位移矢量的估計。,22,8.2.3.2塊匹配準則,塊匹配準則是判斷塊相似程度的依據(jù),因此匹配準則的好壞直接影響了運動估計的精度;另一方面,匹配運算復雜度、數(shù)據(jù)讀取復雜度在很大程度上取決于所采用的塊匹配準則。因此,提高運動估計算法的速度可以有兩種途徑,一種是減少搜索匹配的點數(shù),另一種則是降低塊匹配準則的計算復雜度。常用的塊匹配準則有以下幾種:,(1)均方誤差函數(shù)(MSE),該準則取MSE最小者對應的運動矢量作為搜索結果。(2)絕對平均差函數(shù)(MAD),該準則取MAD最小者對應的運動矢量作為搜索結果。,23,t為閾值,是判斷每個像素或歸入匹配像素,或歸入非匹配像素的依據(jù)。該準則取MPC最大者對應的運動矢量作為搜索結果。上述各公式中,-W≤i,j≤+W,W為搜索范圍,N為宏塊大小,匹配函數(shù)的值為塊失真度BDM。,(3)最大誤差最小函數(shù)(MME),該準則取MME最小者對應的運動矢量作為搜索結果。(4)最大匹配像素數(shù)(MPC),其中,24,MSE匹配函數(shù)運動估計的精度最高,但其眾多的乘方運算在VLSI實現(xiàn)中比較困難;MAD匹配函數(shù)略差,但其相對簡單的運算易于在VLSI中實現(xiàn);MME匹配函數(shù)則過于簡單,沒有充分利用匹配塊所包含的特征信息,使運動估計的精度大大降低。相對而言,MAD準則函數(shù)比較實用,一度得到廣泛運用。,,25,8.2.3.3搜索策略,搜索策略是運動估計算法最關鍵也是最復雜的部分。從搜索方向上看有梯度式(圖8-2)、螺旋式(圖8-3),從搜索路線上看有矩形(圖8-2)、交叉線形(圖8-4)、圓形(圖8-5)和菱形(圖8-6)。將它們與不同的搜索步長相結合,可得到不同的搜索模式;為保證搜索過程及時停止,需要選擇合適的中止準則。搜索模式體現(xiàn)了搜索算法的基本特征,它從根本上決定了搜索算法的效率;搜索中止準則是保證搜索過程結束的條件。一般來說,梯度式搜索能夠自動中止搜索,螺旋式搜索則需要指定搜索的中止條件。好的搜索中止準則能進一步提高搜索算法的效率。,26,圖8-2梯度式搜索圖8-3螺旋式搜索,圖8-4交叉線型搜索圖8-5圓形搜索圖8-6菱形搜索,27,8.2.4典型塊匹配算法介紹,最簡單的BMA是全搜索法(FS),它窮盡參考幀搜索窗內(nèi)所有可能的點進行比較,確實能找到BDM最小的匹配塊,因此,一般來說,F(xiàn)S的預測精度最高。但FS巨大的時間開銷妨礙了它在實際中的應用,因此出現(xiàn)了各種類型的快速算法。下面介紹一些典型的快速算法。,28,1)三步搜索法(3SS),3SS(如圖8-7)于1981年提出,是經(jīng)典的采用梯度式搜索的快速BMA。由于早期的搜索范圍為7,該算法經(jīng)過三步搜索即可結束,故得此名。如果擴大搜索范圍,實際搜索過程就不止三步了,此時稱之為“Log-D搜索”更為確切。,●第一步■第二步▲第三步圖8-7三步搜索法,29,3SS具有簡單易實現(xiàn)、每個塊的搜索點數(shù)相同的優(yōu)點。但它也有一個致命的缺陷:第一步過于粗糙,在搜索范圍較大(如16或更大)時,初始步長相對于塊的運動矢量估計來說就太大了,跳出了可能性比較大的區(qū)域,導致搜索方向的不確定性,因此很容易陷入局部最優(yōu)。為克服3SS的上述缺點,1994年出現(xiàn)了新三步搜索法(N3SS),該算法利用視頻運動矢量的中心偏置分布特點,加強對搜索中心區(qū)域,因此搜索精度有一定程度的提高。另外,N3SS引入了“中途退出”(Halfway-stop)的思想,雖然比較粗造,但為以后的快速算法指出了一種新的策略。,30,2)四步搜索法(4SS),4SS(如圖8-8)于1996年提出,其得名原因與3SS類似。4SS既秉承了3SS梯度式搜索的方向性,又吸收了N3SS的優(yōu)點—利用運動矢量的中心偏置特點。如果說N3SS過分強調(diào)對中心區(qū)域的搜索,顯得有些粗造的話,那么4SS的搜索顯得相對穩(wěn)妥:采用較小的步長漸進地搜索。因此,其搜索精度較N3SS又有進一步的提高。,●第一步■第二步▲第三步◆第四步圖8-8四步搜索法,31,3)動態(tài)搜索窗調(diào)整算法(DSWA),1993年推出的DSWA是另一種克服3SS搜索步長過大缺陷的算法,它在搜索過程中能根據(jù)搜索窗收斂因子的大小自動調(diào)整下一個搜索階段的搜索窗的尺寸,是一種自適應的梯度式搜索算法。DSWA算法的搜索窗收斂因子Rw為當前階段搜索窗大小與上一階段搜索窗大小之比,可以表示為:,其中,Th=0.6,Tl=0.3,M表示當前搜索階段中所有搜索點BDM的次最小值,N表示所有搜索點BDM的最小值。,32,搜索窗內(nèi)搜索點的分布有兩種模式:“十”字形和“X”形(如圖7-9),兩種模式在搜索的每一個階段交替使用,用以對搜索方向進行補償。DSWA算法在克服3SS缺陷的效果方面不如后來出現(xiàn)的N3SS和4SS,其改變搜索步長的計算也略顯復雜。但無論如何,它在搜索過程模式的轉變方面還是作出了有益的嘗試。,圖8-9DSWA的兩種搜索模式,33,4)菱形搜索法(DS),DS出現(xiàn)于1997年,它其實是在4SS的基礎上采用菱形搜索路線得到的一種算法。這個看起來不大的改變,卻給后來的快速運動估計算法帶來了巨大的影響。由于菱形更接近運動矢量的分布,該算法比4SS性能有較大的提高。DS曾于1999年7月被MPEG組織采用,作為VM軟件的運動估計算法。,圖7-10菱形搜索過程示例,DS算法最大的貢獻是提出了菱形搜索模式,更有利于運動矢量的編碼。但與新一代搜索算法相比,DS在搜索策略方面顯得過于簡單,因而搜索效率不夠高,而且PSNR有時有較大損失(如對CCIR格式的Bus序列,平均PSNR比FS下降了2.61dB)。,34,5)APDZS,(1)采用螺旋式菱形搜索;(2)根據(jù)相鄰塊的運動矢量對搜索起點進行預測;(3)在兩個指定大小(4圈)的中心區(qū)域進行搜索;在一定程度上克服了局部最優(yōu),但也帶來了搜索效率的問題。(4)利用SAD的閾值中止搜索過程。若MinSAD<=thresa,中止搜索;若thresa- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 數(shù)字圖像 處理 數(shù)字視頻
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
鏈接地址:http://italysoccerbets.com/p-12175098.html