1、適用於
H.264 視頻的傳輸機制
前面分別討論了RTP
協議及H.264基本流的結構,那麼如何使用RTP協議來傳輸H.264視頻了?一個有效辦法就是從H.264視頻中剝離出每個NALU,在每個NALU前添加相應的RTP包頭,然後將包含RTP 包頭和NALU 的資料包發送出去。下面就從RTP包頭和NALU兩方面分別闡述。
完整的 RTP 固定包頭的格式在前面圖 1 中已經指出,根據RFC3984[3],這裡詳細給出各個位的具體設定。
V:版本號碼,2 位。根據RFC3984,目前使用的RTP 版本號碼應設為0x10。
P:填充位,1 位。當前不使用特殊的密碼編譯演算法,因此該位設為 0。
X:擴充位,1 位。當前固定頭後面不跟隨頭擴充,因此該位也為 0。
CC:CSRC 計數,4 位。表示跟在 RTP 固定包頭後面CSRC 的數目,對於本文所要實現的基本的流媒體伺服器來說,沒有用到混合器,該位也設為 0x0。
M:標示位,1 位。如果當前 NALU為一個接入單元最後的那個NALU,那麼將M位置 1;或者當前RTP 資料包為一個NALU 的最後的那個分區時(NALU 的分區在後面講述),M位置 1。其餘情況下M 位保持為 0。
PT:載荷類型,7 位。對於H.264 視頻格式,當前並沒有規定一個預設的PT 值。因此選用大於 95 的值可以。此處設為0x60(十進位96)。
SQ:序號,16 位。序號的起始值為隨機值,此處設為 0,每發送一個RTP 資料包,序號值加 1。
TS:時間戳記,32 位。同序號一樣,時間戳記的起始值也為隨機值,此處設為0。根據RFC3984, 與時間戳記相應的時鐘頻率必須為90000HZ。
SSRC:同步源標示,32 位。SSRC應該被隨機產生,以使在同一個RTP會話期中沒有任何兩個同步源具有相同的SSRC 識別符。此處僅有一個同步源,因此將其設為0x12345678。
對於每一個NALU,根據其包含的資料量的不同,其大小也有差異。在IP網路中,當要傳輸的IP 報文大小超過傳輸單元最大值MTU(Maximum Transmission Unit )時就會產生IP分區情況。在乙太網路環境中可傳輸的最大 IP 報文(MTU)的大小為 1500 位元組。如果發送的IP資料包大於MTU,資料包就會被拆開來傳送,這樣就會產生很多資料包片段,增加丟包率,降低網路速度。對於視頻傳輸而言,若RTP 包大於MTU 而由底層協議任意拆包,可能會導致接收端播放器的延時播放甚至無法正常播放。因此對於大於MTU
的NALU 單元,必須進行拆包處理。RFC3984
給出了3 中不同的RTP 打包方案:(1)Single
NALU Packet:在一個RTP 包中只封裝一個NALU,在本文中對於小於 1400位元組的NALU 便採用這種打包方案。
(2)Aggregation Packet:在一個RTP 包中封裝多個NALU,對於較小的NALU 可以採用這種打包方案,從而提高傳輸效率。
(3)Fragmentation Unit:一個NALU 封裝在多個RTP包中,在本文中,對於大於1400位元組的NALU 便採用這種方案進行拆包處理。2、H.264
流媒體傳輸系統的實現
一個完整的流媒體傳輸系統包含伺服器端和用戶端兩個部分[5][6]。對於伺服器端,其主要任務是讀取H.264
視頻,從碼流中分離出每個NALU 單元,分析NALU 的類型,設定相應的 RTP 包頭,封裝 RTP 資料包並發送。而對於用戶端來說,其主要任務則是接收 RTP資料包,從RTP 包中解析出NALU 單元,然後送至解碼器進行解碼播放。該流媒體傳輸系統的架構3 所示。