流媒體 1

來源:互聯網
上載者:User

標籤:

1.1.基本概念:

1.2.多媒體系統:

1.3.多媒體資料壓縮與編碼:

(1).熵編碼:不考慮資料來源的無損資料壓縮技術。其核 心思想是按照符號出現的機率大小給符號分配長度 合適的代碼,對常用的符號給它分配長度較短(即位 數較少)的代碼,對不常用的符號給它分  配長度較長 (即位元較多)的代碼。最常見的熵編碼技術是霍夫曼編碼和算術編碼

(2).源編碼:考慮資料來源特性的資料壓縮技術。編碼時考慮訊號源的特性和訊號的內容,因此也稱“基於語 義的編碼(semantic-based coding)”。例如,映像編碼 考慮相鄰像素的值可能完全相同或相近,視像相鄰 幀之間的變化不大,也可能完全相同。為獲得比較 大的壓縮比,通常採用有損資料編碼技術。

(3). 混合編碼:組合源編碼和熵編碼的資料有損壓縮技術。影視、映像和聲音媒體幾乎都採用這種編碼方 式,如JPEG,MPEG-Video和MPEG-Audio。

 

 

2.數字聲音編碼

2.1 聲音訊號數字化

(1).聲音的頻率:

    

(2).採樣——量化——編碼:

採樣頻率:奈奎斯特理論指出,採樣頻率不應低於聲音訊號最高頻率 的兩倍,這樣就能把以數字表達的聲音還原成原來的聲 音,這叫做無損數字化(lossless digitization)

採樣精度:每個聲音樣本的位元(bps)  

資料量(位元組/秒)= (採樣頻率(Hz)*採樣位元(bit)*聲道數)/ 8   ,  音效卡對聲音的處理品質可以用三個基本參數來衡量,即採樣頻率、採樣位元和聲道數。 
  採樣頻率是指單位時間內的採樣次數。採樣頻率越大,採樣點之間的間隔就越小,數字化後得到的聲音就越逼真,但相應的資料量就越大。音效卡一般提供11.025kHz、22.05kHz和44.1kHz等不同的採樣頻率。
   採樣位元是記錄每次採樣值數值大小的位元。採樣位元通常有8bits或16bits兩種,採樣位元越大,所能記錄聲音的變化度就越細膩,相應的資料量就越大。
   採樣的聲道數是指處理的聲音是單聲道還是立體聲。單聲道在聲音處理過程中只有單資料流,而立體聲則需要左、右聲道的兩個資料流。顯然,立體聲的效果要好,但相應的資料量要比單聲道的資料量加倍。

2.2.音效檔的儲存格式:

 

 

2.3.話音編解碼器

(1).波形編解碼器:

  不利用產生話音訊號的任何知識而企圖產生一種重構訊號,它的波形與原始話音波形儘可能地一致。一般來說,這種編解碼器的複雜程度比較低,資料速率在16 kb/s以上,品質相當高。低於這個資料速率時,音質急劇下降。最簡單的波形編碼是脈衝編碼調製(pulse code modulation,PCM),它僅僅是對輸入訊號進行採樣和量化。

(2).音源編解碼器

  音源編解碼的想法是企圖從話音波形訊號中提取產生話音的參數,使用這些參數通過話音產生模型重構出話音。針對話音的音源編解碼器叫做聲碼器 (vocoder)。在話音產生模型中,聲道被等效成一個隨時間變化的濾波器,叫做時變濾波器(time-varying filter),它由白色雜訊—無聲話音段激勵,或者由脈衝串——有聲話音段激勵。因此需要傳送給解碼器的資訊就是濾波器的規格、發聲或者不發聲的標誌和有 聲話音的音節周期,並且每隔10~20 ms更新一次。聲碼器的模型參數既可使用時域的方法也可以使用頻域的方法確定,這項任務由編碼器完成。這種聲碼器的資料率在2.4 kb/s左右,產生的語音雖然可以聽懂,但其品質遠遠低於自然話音。增加資料率對提高合成話音的品質無濟於事,這是因為受到話音產生模型的限制。儘管它的音質比較低,但它的保密效能好,因此這種編解碼器一直用在軍事上。

(3).混合編解碼器

  混合編解碼的想法是企圖填補波形編解碼和音源編解碼之間的間隔。波形編解碼器雖然可提供高話音的品質,但資料率低於16 kb/s的情況下,在技術上還沒有解決音質的問題;聲碼器的資料率雖然可降到2.4 kb/s甚至更低,但它的音質根本不能與自然話音相提並論。為了得到音質高而資料率又低的編解碼器,曆史上出現過很多形式的混合編解碼器,但最成功並且普 遍使用的編解碼器是時域合成-分析(analysis-by-synthesis,AbS)編解碼器。

 

 

3. 脈衝編碼調製(pulse code modulation,PCM)

3.1,概念

  脈衝編碼調製(pulse code modulation,PCM)是概念上最簡單、理論上最完善的編碼系統,是最早研製成功、使用最為廣泛的編碼系統,但也是資料量最大的編碼系統。PCM的編碼原理比較直觀和簡單,它的輸入是類比聲音訊號,它的輸出是PCM樣本。

  “防失真濾波器”是一個低通濾波器,用來濾除聲音頻帶以外的訊號;

  “波形編碼器”可暫時理解為“採樣器”,

  “量化器”可理解為“量化階大小(step-size)”產生器或者稱為“量化間隔”產生器。

3.2. 量化

  聲音數字化有兩個步驟:第一步是採樣,就是每隔一段時間間隔讀一次聲音的幅度;第二步是量化,就是把採樣得到的聲音訊號幅度轉換成數字值。一類稱為均勻量化,另一類稱為非均勻量化。採用的量化方法不同,量化後的資料量也就不同。因此,可以說量化也是一種壓縮資料的方法。

(1).均勻量化

  如果採用相等的量化間隔對採樣得到的訊號作量化,那麼這種量化稱為均勻量化。均勻量化就是採用相同的“等分尺”來度量採樣得到的幅度,也稱為線性量化,量化後的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化雜訊。



  用這種方法量化輸入訊號時,無論對大的輸入訊號還是小的輸入訊號一律都採用相同的量化間隔。為了適應幅度大的輸入訊號,同時又要滿足精度要求,就需要增加樣本的位元。但是,對話音訊號來說,大訊號出現的機會並不多,增加的樣本位元就沒有充分利用。為了克服這個不足,就出現了非均勻量化的方法,這種方法也叫做非線性量化。

(2). 非均勻量化

  非線性量化的基本想法是,對輸入訊號進行量化時,大的輸入訊號採用大的量化間隔,小的輸入訊號採用小的量化間隔,這樣就可以在滿足精度要求的情況下用較少的位元來表示。聲音資料還原時,採用相同的規則。在非線性量化中,採樣輸入訊號幅度和量化輸出資料之間定義了兩種對應關係,一種稱為 m 律壓擴(companding)演算法,另一種稱為A律壓擴演算法。

m 律壓擴

  m 律(m -Law)壓擴(G.711)主要用在北美和日本等地區的數字電話通訊中,按下面的式子確定量化輸入和輸出的關係:
    
  式中:x為輸入訊號幅度,規格化成-1≤x≤1 ;
  sgn(x)為x的極性;
  m 為確定壓縮量的參數,它反映最大量化間隔和最小量化間隔之比,取100 £ m £ 500。
  由於m 律壓擴的輸入和輸出關係是對數關係,所以這種編碼又稱為對數PCM。具體計算時,用m=255,把對數曲線變成8條折線以簡化計算過程。

 A律壓擴

  A律(A-Law)壓擴(G.711)主要用在歐洲和中國大陸等地區的數字電話通訊中,按下面的式子確定量化輸入和輸出的關係:
         0 £ |x| £ 1/A
       1/A < |x| £ 1
  式中:x為輸入訊號幅度,規格化成 -1 £ x £ 1;
  sgn(x)為x的極性;
  A為確定壓縮量的參數,它反映最大量化間隔和最小量化間隔之比。
  A律壓擴的前一部分是線性,其餘部分與m 律壓擴相同。具體計算時,A=87.56,為簡化計算,同樣把對數曲線部分變成折線。詳細計算請看參考文獻[17]。
  對於採樣頻率為8 kHz,樣本精度為13位、14位或者16位的輸入訊號,使用m 律壓擴編碼或者使用A律壓擴編碼,經過PCM編碼器之後每個樣本的精度為8位,輸出的資料率為64 kb/s。這個資料就是CCITT推薦的G.711標準:話音頻率脈衝編碼調製(Pulse Code Modulation (PCM) of Voice Frequences)。

 

3.3.pcm應用

 

 PCM編碼早期主要用於話音通訊中的多工。一般來說,在電信網中傳輸媒體費用約佔總成本的65%,裝置費用約佔成本的35%,因此提高線路利用率是一個重要課題。提高線路利用率通常用下面兩種方法:
(1). 頻分多工 (frequency-division multiplexing,FDM)
  這種方法是把傳輸通道的頻帶分成好幾個窄帶,每個窄帶傳送一路訊號。例如,一個通道的頻帶為1400 Hz,把這個通道分成4個子通道(subchannels):820~990 Hz, 1230~1400 Hz, 1640~1810 Hz和2050~2220 Hz,相鄰子通道間相距240 Hz,用於確保子通道之間不相互幹擾。每對使用者僅佔用其中的一個子通道。這是類比載波通訊的主要手段。

(2). 時分多工(time-division multiplexing,TDM)
  這種方法是把傳輸通道按時間來分割,為每個使用者指定一個時間間隔,每個間隔裡傳輸訊號的一部分,這樣就可以使許多使用者同時使用一條傳輸線路。這是數字通訊的主要手段。例如,話音訊號的採樣頻率f=8000 Hz,它的採樣周期=125 m s,這個時間稱為1幀(frame)。在這個時間裡可容納的話路數有兩種規格:24路制和30路制。

 


 24路PCM的幀結構

 

  24路制的重要參數如下:

 

   ●每秒鐘傳送8000幀,每幀125 m s。
   ●12幀組成1複幀(用於同步)。
   ●每幀由24個時間片(通道)和1位同步位組成。
   ●每個通道每次傳送8位代碼,1幀有24 × 8 +1=193位(位)。
   ●資料轉送率R=8000×193=1544 kb/s。
   ●每一個話路的資料轉送率=8000×8=64 kb/s。
  30路制的重要參數如下:
   ●每秒鐘傳送8000幀,每幀125 ms。
   ●16幀組成1複幀(用於同步)。
   ●每幀由32個時間片(通道)組成。
   ●每個通道每次傳送8位代碼。
   ●資料轉送率:R=8000×32×8=2048 kb/s。
   ●每一個話路的資料轉送率=8000×8=64 kb/s。
  時分多工(TDM)技術已廣泛用在數字電話網中,為反映PCM訊號複用的複雜程度,通常用“群(group)”這個術語來表示,也稱為數字網路的等級。PCM通訊方式發展很快,傳輸容量已由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路)...。圖中的N表示話路數,無論N=30還是N=24,每個通道的資料率都是64 kb/s,經過一次複用後的資料率就變成2048 kb/s(N=30)或者1544 kb/s(N=24)。在數字通訊中,具有這種資料率的線路在北美叫做T1遠距離數字通訊線,提供這種資料率服務的層級稱為T1等級,在歐洲叫做E1遠距離數字通訊線和E1等級。T1/E1,T2/E2,T3/E3,T4/E4和T5/E5.

 

 

 

 

流媒體 1

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.