標籤:
1.1.基本概念:
1.2.多媒體系統:
1.3.多媒體資料壓縮與編碼:
(1).熵編碼:不考慮資料來源的無損資料壓縮技術。其核 心思想是按照符號出現的機率大小給符號分配長度 合適的代碼,對常用的符號給它分配長度較短(即位 數較少)的代碼,對不常用的符號給它分 配長度較長 (即位元較多)的代碼。最常見的熵編碼技術是霍夫曼編碼和算術編碼
(2).源編碼:考慮資料來源特性的資料壓縮技術。編碼時考慮訊號源的特性和訊號的內容,因此也稱“基於語 義的編碼(semantic-based coding)”。例如,映像編碼 考慮相鄰像素的值可能完全相同或相近,視像相鄰 幀之間的變化不大,也可能完全相同。為獲得比較 大的壓縮比,通常採用有損資料編碼技術。
(3). 混合編碼:組合源編碼和熵編碼的資料有損壓縮技術。影視、映像和聲音媒體幾乎都採用這種編碼方 式,如JPEG,MPEG-Video和MPEG-Audio。
2.數字聲音編碼
2.1 聲音訊號數字化
(1).聲音的頻率:
(2).採樣——量化——編碼:
採樣頻率:奈奎斯特理論指出,採樣頻率不應低於聲音訊號最高頻率 的兩倍,這樣就能把以數字表達的聲音還原成原來的聲 音,這叫做無損數字化(lossless digitization)
採樣精度:每個聲音樣本的位元(bps)
資料量(位元組/秒)= (採樣頻率(Hz)*採樣位元(bit)*聲道數)/ 8 , 音效卡對聲音的處理品質可以用三個基本參數來衡量,即採樣頻率、採樣位元和聲道數。
採樣頻率是指單位時間內的採樣次數。採樣頻率越大,採樣點之間的間隔就越小,數字化後得到的聲音就越逼真,但相應的資料量就越大。音效卡一般提供11.025kHz、22.05kHz和44.1kHz等不同的採樣頻率。
採樣位元是記錄每次採樣值數值大小的位元。採樣位元通常有8bits或16bits兩種,採樣位元越大,所能記錄聲音的變化度就越細膩,相應的資料量就越大。
採樣的聲道數是指處理的聲音是單聲道還是立體聲。單聲道在聲音處理過程中只有單資料流,而立體聲則需要左、右聲道的兩個資料流。顯然,立體聲的效果要好,但相應的資料量要比單聲道的資料量加倍。
2.2.音效檔的儲存格式:
2.3.話音編解碼器
(1).波形編解碼器:
不利用產生話音訊號的任何知識而企圖產生一種重構訊號,它的波形與原始話音波形儘可能地一致。一般來說,這種編解碼器的複雜程度比較低,資料速率在16 kb/s以上,品質相當高。低於這個資料速率時,音質急劇下降。最簡單的波形編碼是脈衝編碼調製(pulse code modulation,PCM),它僅僅是對輸入訊號進行採樣和量化。
(2).音源編解碼器
音源編解碼的想法是企圖從話音波形訊號中提取產生話音的參數,使用這些參數通過話音產生模型重構出話音。針對話音的音源編解碼器叫做聲碼器 (vocoder)。在話音產生模型中,聲道被等效成一個隨時間變化的濾波器,叫做時變濾波器(time-varying filter),它由白色雜訊—無聲話音段激勵,或者由脈衝串——有聲話音段激勵。因此需要傳送給解碼器的資訊就是濾波器的規格、發聲或者不發聲的標誌和有 聲話音的音節周期,並且每隔10~20 ms更新一次。聲碼器的模型參數既可使用時域的方法也可以使用頻域的方法確定,這項任務由編碼器完成。這種聲碼器的資料率在2.4 kb/s左右,產生的語音雖然可以聽懂,但其品質遠遠低於自然話音。增加資料率對提高合成話音的品質無濟於事,這是因為受到話音產生模型的限制。儘管它的音質比較低,但它的保密效能好,因此這種編解碼器一直用在軍事上。
(3).混合編解碼器
混合編解碼的想法是企圖填補波形編解碼和音源編解碼之間的間隔。波形編解碼器雖然可提供高話音的品質,但資料率低於16 kb/s的情況下,在技術上還沒有解決音質的問題;聲碼器的資料率雖然可降到2.4 kb/s甚至更低,但它的音質根本不能與自然話音相提並論。為了得到音質高而資料率又低的編解碼器,曆史上出現過很多形式的混合編解碼器,但最成功並且普 遍使用的編解碼器是時域合成-分析(analysis-by-synthesis,AbS)編解碼器。
3. 脈衝編碼調製(pulse code modulation,PCM)
3.1,概念
脈衝編碼調製(pulse code modulation,PCM)是概念上最簡單、理論上最完善的編碼系統,是最早研製成功、使用最為廣泛的編碼系統,但也是資料量最大的編碼系統。PCM的編碼原理比較直觀和簡單,它的輸入是類比聲音訊號,它的輸出是PCM樣本。
“防失真濾波器”是一個低通濾波器,用來濾除聲音頻帶以外的訊號;
“波形編碼器”可暫時理解為“採樣器”,
“量化器”可理解為“量化階大小(step-size)”產生器或者稱為“量化間隔”產生器。
3.2. 量化
聲音數字化有兩個步驟:第一步是採樣,就是每隔一段時間間隔讀一次聲音的幅度;第二步是量化,就是把採樣得到的聲音訊號幅度轉換成數字值。一類稱為均勻量化,另一類稱為非均勻量化。採用的量化方法不同,量化後的資料量也就不同。因此,可以說量化也是一種壓縮資料的方法。
(1).均勻量化
如果採用相等的量化間隔對採樣得到的訊號作量化,那麼這種量化稱為均勻量化。均勻量化就是採用相同的“等分尺”來度量採樣得到的幅度,也稱為線性量化,量化後的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化雜訊。
用這種方法量化輸入訊號時,無論對大的輸入訊號還是小的輸入訊號一律都採用相同的量化間隔。為了適應幅度大的輸入訊號,同時又要滿足精度要求,就需要增加樣本的位元。但是,對話音訊號來說,大訊號出現的機會並不多,增加的樣本位元就沒有充分利用。為了克服這個不足,就出現了非均勻量化的方法,這種方法也叫做非線性量化。
(2). 非均勻量化
非線性量化的基本想法是,對輸入訊號進行量化時,大的輸入訊號採用大的量化間隔,小的輸入訊號採用小的量化間隔,這樣就可以在滿足精度要求的情況下用較少的位元來表示。聲音資料還原時,採用相同的規則。在非線性量化中,採樣輸入訊號幅度和量化輸出資料之間定義了兩種對應關係,一種稱為 m 律壓擴(companding)演算法,另一種稱為A律壓擴演算法。
m 律壓擴
m 律(m -Law)壓擴(G.711)主要用在北美和日本等地區的數字電話通訊中,按下面的式子確定量化輸入和輸出的關係:
式中:x為輸入訊號幅度,規格化成-1≤x≤1 ;
sgn(x)為x的極性;
m 為確定壓縮量的參數,它反映最大量化間隔和最小量化間隔之比,取100 £ m £ 500。
由於m 律壓擴的輸入和輸出關係是對數關係,所以這種編碼又稱為對數PCM。具體計算時,用m=255,把對數曲線變成8條折線以簡化計算過程。
A律壓擴
A律(A-Law)壓擴(G.711)主要用在歐洲和中國大陸等地區的數字電話通訊中,按下面的式子確定量化輸入和輸出的關係:
0 £ |x| £ 1/A
1/A < |x| £ 1
式中:x為輸入訊號幅度,規格化成 -1 £ x £ 1;
sgn(x)為x的極性;
A為確定壓縮量的參數,它反映最大量化間隔和最小量化間隔之比。
A律壓擴的前一部分是線性,其餘部分與m 律壓擴相同。具體計算時,A=87.56,為簡化計算,同樣把對數曲線部分變成折線。詳細計算請看參考文獻[17]。
對於採樣頻率為8 kHz,樣本精度為13位、14位或者16位的輸入訊號,使用m 律壓擴編碼或者使用A律壓擴編碼,經過PCM編碼器之後每個樣本的精度為8位,輸出的資料率為64 kb/s。這個資料就是CCITT推薦的G.711標準:話音頻率脈衝編碼調製(Pulse Code Modulation (PCM) of Voice Frequences)。
3.3.pcm應用
PCM編碼早期主要用於話音通訊中的多工。一般來說,在電信網中傳輸媒體費用約佔總成本的65%,裝置費用約佔成本的35%,因此提高線路利用率是一個重要課題。提高線路利用率通常用下面兩種方法:
(1). 頻分多工 (frequency-division multiplexing,FDM)
這種方法是把傳輸通道的頻帶分成好幾個窄帶,每個窄帶傳送一路訊號。例如,一個通道的頻帶為1400 Hz,把這個通道分成4個子通道(subchannels):820~990 Hz, 1230~1400 Hz, 1640~1810 Hz和2050~2220 Hz,相鄰子通道間相距240 Hz,用於確保子通道之間不相互幹擾。每對使用者僅佔用其中的一個子通道。這是類比載波通訊的主要手段。
(2). 時分多工(time-division multiplexing,TDM)
這種方法是把傳輸通道按時間來分割,為每個使用者指定一個時間間隔,每個間隔裡傳輸訊號的一部分,這樣就可以使許多使用者同時使用一條傳輸線路。這是數字通訊的主要手段。例如,話音訊號的採樣頻率f=8000 Hz,它的採樣周期=125 m s,這個時間稱為1幀(frame)。在這個時間裡可容納的話路數有兩種規格:24路制和30路制。
24路PCM的幀結構
24路制的重要參數如下:
●每秒鐘傳送8000幀,每幀125 m s。
●12幀組成1複幀(用於同步)。
●每幀由24個時間片(通道)和1位同步位組成。
●每個通道每次傳送8位代碼,1幀有24 × 8 +1=193位(位)。
●資料轉送率R=8000×193=1544 kb/s。
●每一個話路的資料轉送率=8000×8=64 kb/s。
30路制的重要參數如下:
●每秒鐘傳送8000幀,每幀125 ms。
●16幀組成1複幀(用於同步)。
●每幀由32個時間片(通道)組成。
●每個通道每次傳送8位代碼。
●資料轉送率:R=8000×32×8=2048 kb/s。
●每一個話路的資料轉送率=8000×8=64 kb/s。
時分多工(TDM)技術已廣泛用在數字電話網中,為反映PCM訊號複用的複雜程度,通常用“群(group)”這個術語來表示,也稱為數字網路的等級。PCM通訊方式發展很快,傳輸容量已由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路)...。圖中的N表示話路數,無論N=30還是N=24,每個通道的資料率都是64 kb/s,經過一次複用後的資料率就變成2048 kb/s(N=30)或者1544 kb/s(N=24)。在數字通訊中,具有這種資料率的線路在北美叫做T1遠距離數字通訊線,提供這種資料率服務的層級稱為T1等級,在歐洲叫做E1遠距離數字通訊線和E1等級。T1/E1,T2/E2,T3/E3,T4/E4和T5/E5.
流媒體 1