PDF格式詳解

來源:互聯網
上載者:User
 

pdf(Portable   Document   Format,攜帶型文檔結構)是一種很有用的檔案格式,其最大的特點是  
  平台無關而且功能強大(支援文字/圖象/音樂/視頻).今天先講一下pdf的檔案(物理)結構  
  PDF檔案結構可分為以下幾塊:  
  1.header:  
  pdf檔案的第一行,格式如下:  
   
  %PDF-1.3  
   
  表示當前檔案的版本是1.3(目前最高版本為1.5)  
   
  2.body:  
  pdf檔案中用到的所有對象,包括文本/圖象/音樂/視頻/字型/超串連/加密資訊等等,格式如下:  
   
  2   0   obj  
  ...  
  end   obj  
   
  其中省略符號部分是pdf規定的任意合法對象(一共8種)  
   
  3.cross   reference   table:  
  所有pdf對象的參考資料表,其格式如下:  
   
  xref  
  0   5  
  0000000000   65535   f  
  0000000009   00000   n  
  0000000074   00000   n  
  0000000120   00000   n  
  0000000179   00000   n  
   
  其中,xref是開始標誌,表示以下為參考資料表內容;0   5表示從對象號為0的開始,  
  連續有5個對象(0,1,2,3,4),分別用5行來表示.每行的前10個數字代表這個  
  這個對象相對檔案頭的位移地址,後面5個數字只有當這個對象被刪除的時  
  候才有用,表示這個對象被刪除後又被重建後的對象號最後一位f或n表  
  示對象是否被使用(n表示使用,f表示被刪除或沒有用)  
   
  4.trailer:  
  整個pdf檔案的進入點,形式如下:  
  trailer  
  <<  
  /Size   8  
  /Root   1   0   R  
  >>  
  startxref  
  553  
  %%EOF  
   
  /size   :這個pdf中總共使用了多少個對象  
  /root   :這個pdf檔案的catalog對象的對象號,這是pdf中最頂層的對象  
  /startxref:   後面的數字表示cross   reference   table的開始位置  
  /%%EOF   :檔案結束符.  
   
  實際一個pdf檔案是很複雜的,但是上面幾個部分是確定的,只能多不能少.下一講我說一下pdf裡面8種類型.

1.booleam
 用關鍵字true或false表示,可以是array對象的一個元素,或dictionary對象的一個條目.

2.numeric
 包括整形和實型,不支援非十進位數字,不支援指數形式的數字.

 例:
        1)整數 123 4567 +111 -2     
 範圍:正2的31次方-1到負的2的31次方
 2)實數 12.3 0.8 +6.3 -4.01 -3. +.03
 範圍:±3.403 × 10的38次方     ±1.175 × 10的-38次方
 注意:如果整數超過表示範圍將轉化成實數,如果實數超過範圍就出錯了
3.string
 由一系列0-255之間的位元組組成,一個string總長度不能超過65535.string有以下兩種方式:
 1)由()包含起來的一個字串,中間可以使用轉義符"/".
 例:
 (abc)  表示abc
 (a//)  表示a/
 2)由<>包含起來的一個16進位串,兩位表示一個字元,不足兩位用0補齊
 例:
 <Aabb>  表示AA和BB兩個字元
 <AAB>  表示AA和B0兩個字元
4.name
 由一個前置/和後面一系列字元組成,最大長度為127.和string不同的是,name是不可分割的
 和唯一的,不可分割就是說一個name對象就是一個原子,比如/name,不能說n就是這個name的
 一個元素;唯一就是指兩個相同的name一定代表同一個對象.從pdf1.2開始,除了ascii的0,別
 的都可以用一個#加兩個十六進位的數字表示.
 例:
 /name  表示name
 /name#20is 表示name is
 /name#200 表示name 0
5.array
 用[]包含的一組對象,可以是任何pdf對象(包括array).雖然pdf只支援一維array,但可以通過
 array的嵌套實現任意維數的array(但是一個array的元素不能超過8191)
 例:
 [549 3.14 false (Ralph) /SomeName]
6.Dictionary
 用"<<"和">>"包含的若干組條目,每組條目都由key和value組成,其中key必須是name對象,並且
 一個dictionary內的key是唯一的;value可以是任何pdf的合法對象(包括dictionary對象).
 例:
 << /IntegerItem 12
 /StringItem (a string)
 /Subdictionary << /Item1 0.4
 /Item2 true
 /LastItem (not!)
 /VeryLastItem (OK)
 >>
 >>
7.stream
 由關鍵字stream和endstream包含一系列位元組.內容和string很相似,但有區別:stream可以分幾次
 讀取,分開使用不同的部分,string必須作為一個整體一次全部讀取使用;string有長度限制,但
 stream卻沒有這個限制.一般較大的資料都用stream表示.
 例:(略)
8.NULL
 用null表示,代表空.如果一個key的值為null,則這個key可以被忽略;如果引用一個不存在的
 object則等價於引用一個Null 物件.
 例:(略)

給大家說點有用的東西:為什麼有的pdf不允許列印?
pdf有自己的加密措施,其中就有限制列印.
找到trailer,如果這個pdf是加密的話會有一個/Encrypt的name,他的值一般形式是n 0 R,表示這個pdf
檔案的加密資訊在n 0這個obj裡面記錄.找到這個obj,其下有一個/P的name,他的值是一個數字(32位)
其中第三位代表是否有列印許可權:)

由於pdf的特殊檔案結構,註定pdf的產生是一件很麻煩的事情。目前最常用的就是adobe公司提供的sdk了,但是由於其依賴與adobe的環境,所以使用起來不是很方便。在這裡我給大家介紹另外一種方法——使用pdflib產生pdf。  
   
  pdflib也提供了一組sdk,但和adobe的sdk相比,pdflib很小,但功能卻一點也不弱。所以對於開發者來說,pdflib是一個明智的選擇。你可以從下面的網址得到到它:  
  http://www.pdflib.com/products/pdflib/download/index.html。如果你沒有得到序號,那麼產生的pdf將會加上浮水印,其他功能和商業版一樣。  
  另外你還可以從下面網址得到pdflib-lite版:  
  http://www.pdflib.com/products/pdflib/download-source.html  
  pdflib-lite使用協議:  
  http://www.pdflib.com/purchase/license-lite.html  
  和pdflib相比,pdflib-lite最大的特點就是你可以擁有完全的原始碼,但功能不如pdflib全面,比如支援的字型要比pdflib少很多。但是,如果你對pdf檔案本身很瞭解的話,你完全可以在pdflib-lite的基礎上再做發揮,這就要看你的c語言功底如何了。如果要用做商業產品,請仔細閱讀授權協議!  
   
  下載pdflib壓縮包(大約6m)後,在pdflib檔案夾下有pdflib.dll,pdflib.lib,pdflib.h,pdflib.reg。對於我們來說,只要有前3個檔案就可以了。  
  下面是一個產生pdf的完整代碼:  
   
  #include   <stdio.h>  
  #include   <stdlib.h>  
   
  #include   "pdflib.h"  
   
  int  
  main(void)  
  {  
          PDF   *p;  
          int   font;  
   
          /*   create   a   new   PDFlib   object   */  
          if   ((p   =   PDF_new())   ==   (PDF   *)   0)  
          {  
                  printf("Couldn't   create   PDFlib   object   (out   of   memory)!/n");  
                  return(2);  
          }  
   
          PDF_TRY(p)   {  
  if   (PDF_begin_document(p,   "hello.pdf",   0,   "")   ==   -1)   {  
          printf("Error:   %s/n",   PDF_get_errmsg(p));  
          return(2);  
  }  
   
  /*   This   line   is   required   to   avoid   problems   on   Japanese   systems   */  
  PDF_set_parameter(p,   "hypertextencoding",   "host");  
   
  PDF_set_info(p,   "Creator",   "hello.c");  
  PDF_set_info(p,   "Author",   "Thomas   Merz");  
  PDF_set_info(p,   "Title",   "Hello,   world   (C)!");  
   
  PDF_begin_page_ext(p,   a4_width,   a4_height,   "");  
   
  /*   Change   "host"   encoding   to   "winansi"   or   whatever   you   need!   */  
  font   =   PDF_load_font(p,   "Helvetica-Bold",   0,   "host",   "");  
   
  PDF_setfont(p,   font,   24);  
  PDF_set_text_pos(p,   50,   700);  
  PDF_show(p,   "Hello,   world!");  
  PDF_continue_text(p,   "(says   C)");  
  PDF_end_page_ext(p,   "");  
   
  PDF_end_document(p,   "");  
          }  
   
          PDF_CATCH(p)   {  
                  printf("PDFlib   exception   occurred   in   hello   sample:/n");  
                  printf("[%d]   %s:   %s/n",  
          PDF_get_errnum(p),   PDF_get_apiname(p),   PDF_get_errmsg(p));  
                  PDF_delete(p);  
                  return(2);  
          }  
   
          PDF_delete(p);  
   
          return   0;  
  }  
  到現在,一個hello.pdf的pdf檔案就產生了,你完全可以自己發揮,做出很複雜的pdf檔案,這就看你的想象力了:)不過在發揮的時候要注意,pdf的座標和我們通常理解的座標是不一樣的,螢幕座標的原點在左上方,pdf檔案的原點在左下腳。 

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.