前幾天,我才知道有一種簡化的資料交換格式,叫做yaml。
我翻了一遍它的文檔,看懂的地方不多,但是有一句話令我茅塞頓開。
它說,從結構上看,所有的資料最終都可以分成三種類型:
第一種類型是scalar(標量),也就是一個單獨的string(字串)或數字(numbers),比如“北京”這個單獨的詞。第二種類型是sequence(序列),也就是若干個相關的資料按照一定順序並列在一起,又叫做array(數組)或List(列表),比如“北京,東京”。第三種類型是mapping(映射),也就是一個名/值對(Name/value),即資料有一個名稱,還有一個與之相對應的值,這又稱作hash(散列)或dictionary(字典),比如“首都:北京”。
我恍然大悟,資料構成的最小單位原來如此簡單!難怪在程式設計語言中,只要有了數組(array)和對象(object)就能夠儲存一切資料了。
我馬上想到了json。
21世紀初,Douglas Crockford尋找一種簡便的資料交換格式,能夠在伺服器之間交換資料。這其實需要二步,第一步是將各種資料轉化為一個字串,也就是資料的序列化(serialization),第二步才是交換這個字串。
當時通用的資料交換語言是XML,但是Douglas Crockford覺得XML的產生和解析都太麻煩,所以他提出了一種簡化格式,也就是Json。
Json的規格非常簡單,只用一個頁面、幾百個字就能說清楚,而且Douglas Crockford聲稱這個規格永遠不必升級,因為該規定的都規定了。
- 並列的資料之間用逗號(“,”)分隔。
- 映射用冒號(“:”)表示。
- 並列資料的集合(數組)用方括弧("[]")表示。
- 映射的集合(對象)用大括弧(“{}”)表示。
上面四條規則,就是Json格式的所有內容。比如,下面這句話:“北京市的面積為16800平方公裡,常住人口1600萬人。上海市的面積為6400平方公裡,常住人口1800萬。”寫成json格式就是這樣:
[{"城市":"北京","面積":16800,"人口":1600},{"城市":"上海","面積":6400,"人口":1800}]
如果事Crowdsourced Security Testing道資料的結構,上面的寫法還可以進一步簡化:
[["北京",16800,1600],["上海",6400,1800]]
由此可以看到,json非常易學易用。所以,在短短几年中,它就取代xml,成為了互連網上最受歡迎的資料交換格式。
我猜想,Douglas Crockford一定事先就知道,資料結構可以簡化成三種形式,否則怎麼可能將json定義得如此精鍊呢!
我還記得,在學習javascript的時候,我一度搞不清楚“數組”(array)和“對象”(object)的根本區別在哪裡,兩者都可以用來表示資料的集合。
比如有一個數組a=[1,2,3,4],還有一個對象a={0:1,1:2,2:3,3:4},然後你運行alert(a[1]),兩種情況下的運行結果是相同的!這就是說,資料集合既可以用數組表示,也可以用對象表示,那麼我到底該用哪一種呢?
我後來才知道,數組表示有序資料的集合,而對象表示無序資料的集合。如果資料的順序很重要,就用數組,否則就用對象。
當然,數組和對象的另一個區別是,數組中的資料沒有“名稱”(name),對象中的資料有“名稱”(name)。
但是問題是,很多程式設計語言中,都有一種叫做“關聯陣列”(associative array)的東西。這種數組中的資料是有名稱的。
比如在javascript中,可以這樣定義一個對象:
var a={"城市":"北京","面積":16800,"人口":1600};
但是,也可以定義成一個關聯陣列:
a["城市"]="北京";a["面積"]=16800;a["人口"]=1600;
這起初也加劇了我對數組和對象的混淆,後來才明白,在Javascript語言中,關聯陣列就是對象,對象就是關聯陣列。這一點與php語言完全不同,在php中,關聯陣列也是數組。
比如運行下面這段javascript:
var a=[1,2,3,4];a['foo']='Hello World';alert(a.length);
最後的結果是4,也就是說,數組a的元素個數是4個。
但是,運行同樣內容的php代碼就不一樣了:
$a=array(1,2,3,4);$a["foo"]="Hello world";echo count($a);
最後的結果是5,也就是說,數組a的元素個數是5個。