最近有個同學問我:有關HadoopDistributed File System和OpenStackObject Storage Service的不同,跟他YY了幾句。個人覺得一個偏向於資料處理,一個偏向於儲存。沒有絕對的好壞,要根據具體應用來使用。
找了網上了一些說法:這是原文:http://os.51cto.com/art/201202/314254.htm
“HadoopDistributed File System(HDFS)和OpenStackObject Storage Service(OpenStack Object Storage)似乎都有著相似的目的:實現冗餘、快速、連網的儲存。什麼樣的技術特性讓這兩種系統因而不一樣?這兩種儲存系統最終趨於融合是否大有意義?”
問題提出之後,很快有OpenStack的開發人員進行了回複。51CTO在此摘抄了前兩名回複進行翻譯,以供各位參考。
排名第一的答案來自RackSpace的OpenStack Swift開發人員Chuck Their:
雖然HDFS與OpenstackObject Storage Service(Swift)之間有著一些相似之處,但是這兩種系統的總體設計卻大不一樣。
1. HDFS使用了中央系統來維護檔案中繼資料(Namenode,名稱節點),而在Swift中,中繼資料呈分布式,跨叢集複製。使用一種中央中繼資料系統對HDFS來說無異於單一故障點,因而擴充到規模非常大的環境顯得更困難。
2. Swift在設計時考慮到了多租戶架構,而HDFS沒有多租戶架構這個概念。
3. HDFS針對更龐大的檔案作了最佳化(這是處理資料時通常會出現的情況),Swift被設計成了可以儲存任何大小的檔案。
4. 在HDFS中,檔案寫入一次,而且每次只能有一個檔案寫入;而在Swift中,檔案可以寫入多次;在並行作業環境下,以最近一次操作為準。
5. HDFS用Java來編寫,而Swift用Python來編寫。
另外,HDFS被設計成了可以儲存數量中等的大檔案,以支援資料處理,而Swift被設計成了一種比較通用的儲存解決方案,能夠可靠地儲存數量非常多的大小不一的檔案。
想瞭解HDFS架構方面的資訊,請訪問http://hadoop.apache.org/hdfs/docs/current/hdfs_design.html。
排名第二的答案來自Joshua McKenty,他是美國宇航局Nebula雲端運算項目的首席架構師,是OpenStack Nova軟體的早期開發人員之一,目前是OpenStack項目監管委員會的成員,還是Piston.cc這家基於OpenStack的公司的創始人。
Chuck剛才詳細介紹了兩者的技術差異,但是沒有討論兩者可想而知的融合,OpenStack設計峰會上拋出了融合這個話題。簡而言之,HDFS被設計成可以使用Hadoop,跨儲存環境裡面的對象實現MapReduce處理。對於許多OpenStack公司(包括我自己的公司)來說,支援Swift裡面的處理是路線圖上面的一個目標,不過不是每個人都認為MapReduce是解決之道。
我們已討論過為HDFS編寫封裝器,這將支援OpenStack內部儲存應用編程介面(API),並且讓使用者可以針對該資料來執行Hadoop查詢。還有一個辦法就是在Swift裡面使用HDFS。但是這些方法似乎沒有一個是理想的。
OpenStack社區方面也在開展研究開發方面的一些工作,認真研究其他替代性的MapReduce架構(Riak和CouchDB等)。
最後,現在有別的一些儲存項目,目前“隸屬於”OpenStack社區(SheepDog和HC2)。充分利用資料局部性,並且讓Object Storage Service變得“更智能”,這是預計會取得進步的一個領域。
原文:http://www.quora.com/What-features-differentiate-HDFS-and-OpenStack-Object-Storage