Swift中大對象（大於5GB）的處理

最後更新：2018-12-07 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

本文翻譯整理自swift官方文檔《OpenStack Object Storage Administration Manual》中的“Managing Large Objects (Greater than 5 GB)”一節，並實測，驗證文檔中的內容。點這裡可以看到線上文檔。

預設情況中，Swfit上傳的最大單個對象的大小為5GB。然而，對於下載對象的大小卻是沒有限制的，這種“下載無限制”的概念是通過將分段對象組織起來類比實現的。大對象的每個分段被分別上傳，然後再建立一個資訊清單檔（manifest file）指明這個對象所包含的分段，下載時，清單所指示所有分段會被組織成一個單獨的對象進行下載。這種實現方式同時頁提高了上傳的速率，因為我們可以將一個對象的多個分段進行並行的上傳。

使用swift命令管理分段對象

嘗試這種特性的最快捷的方式，是使用OpenStackObject Storage Service用戶端工具。上傳對象時，你可以使用-S選項來指明每個分段的大小，例如：

# swift upload test_container -S 1073741824 large_file

這條命令會將large_file分成一組1G大小的分段，然後並行的上傳這些分段。一旦所有的分段都上傳完畢了，swift用戶端工具就會為這些分段建立一個manifest檔案，以保證這些分段可以作為一個對象large_file被下載。

以下命令將會下載整個大對象：

swift download test_container large_file

swift命令列工具採用一種嚴格的轉換方式來實現對分段對象的支援。在上面的例子中，swift命令列工具會首先將所有的分段上傳到另一個容器（test_container_segments）中，這些分段被命名為類似large_file/1290206778.25/21474836480/00000000, large_file/1290206778.25/21474836480/00000001等這樣的名字。

使用一個分離的容器儲存分段的主要的好處是，當我們對主容器進行listings操作時，將不會把所有的分段名稱都展示出來。使用 <name>/<timestamp>/<size>/<segment> 這種格式明明對象的分段，是因為如果使用者上傳了一個擁有相同名稱的新對象，將會不覆蓋前一個對象，知道資訊清單檔被更新。

swift命令列工具會幫你管理這些分段檔案，在刪除、覆蓋的時候刪除這些老的分段。如果需要的話，你可以使用-leave-segments選項來覆蓋這些行為。在你希望對大對象進行多版本管理時，s這將會非常有用。

直接使用API管理大對象

你可以直接使用HTTP請求而非swift用戶端工具來操作分段和清單。你可以像上傳其他檔案一樣直接上傳分段、資訊清單檔，其中資訊清單檔只是一個擁有 X-Object-Manifest 頭的大小為0位元組的普通檔案。

一個對象的所有分段必須儲存在同一個容器中，擁有共同的對象名稱首碼，並按照他們應有的順序排序命名。它們可以和資訊清單檔不在同一個容器中，這可以將容器中的對象列表保持的比較乾淨。

資訊清單檔只是一個大小為0位元組、擁有 X-Object-Manifest: <container>/<prefix> 頭的普通檔案。其中<container>是對象分段所在的容器名稱，<prefix>是這些分段的公用首碼。

最好的方式是，先上傳所有的分段，再建立/更新資訊清單檔。在這種情況下，在對象完全上傳成功前，該對象是不會被下載請求訪問到的。你也可以上傳一堆新的分段到另外一個位置，然後更新資訊清單檔指向新的位置。在這些新分段上傳的過程中，原來的資訊清單檔還是可以被訪問的，即在新分段上傳的過程中，對該資訊清單檔的下載請求，還是返回原來的分段對象。

這裡有一個使用curl執行1個位元組的小分段上傳的範例：

# 首先，上傳所有的分段

$ curl -X PUT -H 'X-Auth-Token: <token>' http://<storage_url>/container/myobject/1 --data-binary '1'$ curl -X PUT -H 'X-Auth-Token: <token>' http://<storage_url>/container/myobject/2 --data-binary '2'$ curl -X PUT -H 'X-Auth-Token: <token>' http://<storage_url>/container/myobject/3 --data-binary '3'

# 然後，建立資訊清單檔

curl -X PUT -H 'X-Auth-Token: <token>' -H 'X-Object-Manifest: container/myobject/' http://<storage_url>/container/myobject --data-binary ''

# 現在我們可以將這些分段當做一個對象進行下載

curl -H 'X-Auth-Token: <token>' http://<storage_url>/container/myobject

大對象的額外注意點

對資訊清單檔執行一個GET或HEAD請求，X-Object-Manifest: <container>/<prefix> 頭會聯通串聯後的對象一起返回，因此你可以根據 X-Object-Manifest 判斷是從哪裡擷取的分段。

對資訊清單檔執行GET或HEAD請求，回應標頭 Content-Length 的值為其指向的所有分段的大小總和，因此這個值是動態。因此，當你在建立資訊清單檔後，繼續上傳了額外的分段，將會使串聯對象變得更大，但無需重新構造資訊清單檔。

對資訊清單檔執行GET或HEAD請求，回應標頭 Content-Type 的值與使用PUT請求建立該清單時指定的 Content-Type 相同。因此，你可以通過重新發送PUT請求來改變 Content-Type 的值。

對資訊清單檔執行GET或HEAD請求，回應標頭 ETag 的值將為其指向的每個分段的ETag串聯字串的MD5值，因此這個值是動態。通常，swift中對象的ETag值是對象內容的MD5值，這對每個單獨的分段也是成立的。但是，資訊清單檔本身不會產生這樣的一個ETag值，因此這個方法至少可以用於判斷檔案的改變。

大Object Storage Service的曆史和背景

在目前的版本的實現方式之前，大對象的支援已經經曆了若干次迭代實現。

在swift中限制單個對象的大小的最主要原因是為了平衡ring上的不同分區。為了保證叢集中的磁碟可以被均勻的利用，很顯然我們需要將大檔案分解成更小的分段，然後在讀操作的過程中將小分段合并。

在提出大對象的支援之前，一些應用已經在用戶端將它們要上傳的對象分解成一些獨立的段，然後再對這些分段進行重組。這種設計使得用戶端可以支援備份並歸檔大資料集，然而由於網路中斷等問題，卻不能很好的提高效能、減少錯誤。採用這種方法最主要的缺點是，由於需要原始的劃分資訊來重組對象，因此在一些情境（如CDN源）中這種方法就不太實際。

為了消除用戶端對於儲存大於5GB對象需求的障礙，我們最初設計了一種對大對象上傳完全透明的支援方式。為了實現完全透明的大對象上傳，proxy server將會在對象上傳的過程中負責將這個大對象分段，而不需要修改任何的API。因此所有的分段都被完全隱藏在了用戶端API之後。

然而，這種實現方式將引起一些問題：它不支援用戶端並行的上傳一個對象，並且沒有錯誤恢複機制。相較於完全透明的分段方式帶來的益處，它的複雜性還是顯得太高了。

我們當前使用的“user manifest”設計時為了給用戶端提供一個透明的大對象下載方式，同時也可以支援分段上傳，並保持用戶端API的乾淨、整潔。

另一種“顯示的”user manifest實現方式也被討論過的，它需要預先定義列出已上傳分段的格式。雖然這種方式可以提供一些潛在的優點，但是為了實現一個更簡單的API，我們應避免將負擔推到用戶端（實際上，就是決定“X-Object-Manifest”的格式）。

在開發的過程中，我們注意到，這種基於公用路徑首碼的“隱式的”user manifest方法將被會被最終一致性視窗的大小影響，理論上會產生這種情況：在上傳了一個對象很短的時間內，對資訊清單檔執行GET操作，將會返回一個無效的對象。事實上，除非你的swift運行在一個並發上傳度非常高的測試環境中，你將不太可能會遇到這種情況（在並發上傳非常高的測試環境中不運行object-updaters和container-replicators）。

像所有的OpenStackObject Storage Service中的特性一樣，支援大對象是一個發展中的特性，它將繼續改善，並可能隨時間而改變。

實測結果1. swift CLI 進行大檔案上傳、下載

測試檔案repost_backup2.sql的大小為12.3G。

1）直接上傳，會報錯，檔案太大。

2）指定分段上傳，每段5G。swift CLI工具將檔案分成3段，並建立了資訊清單檔。

3）上傳成功後，查看容器，發現新增了docs_segments容器。

4）目標容器中只有repost_backup2.sql資訊清單檔，並沒有分段對象；docs_segments容器中儲存分段對象。

5）下載時，將分段對象作為一個大對象下載。

實測結果2. curl 進行分段上傳、合并下載

1）分別上傳3個1位元組大小的檔案，公用首碼為"myobject/"

2）建立資訊清單檔，指定X-Object-Manifest的值為公用首碼"docs/myobject/"，並命名為使用者知曉的myobject。

3）查看上傳結果，可以看到3個分段對象和1個資訊清單檔。

4）下載myobject對象，可以看到返回結果將3個分段檔案進行了串聯，並只返回一個myobject對象。

此外，通過仔細觀察HTTP的頭資訊，我們也可以應正“大對象的額外注意點”小節中闡述的內容。

一些思考

至此，想到了一些在開發API時需要注意的問題：

Object的類型定義。由於偽目錄的存在，需要為object增加subdir屬性，用於區別偽目錄和真實的對象；由於資訊清單檔的存在，object的屬性應增加對X-Object-Manifest中繼資料的過濾，用於判斷資訊清單檔；
容器的listing操作。為了對使用者隱藏分段過程，在執行listing操作的時候怎樣才能足夠“乾淨”？模仿swift CLI為每個容器建立一個“容器_segments”的分段容器，並限制使用者不能建立/訪問“_segments”結尾的容器？
根據2，想到對象版本的管理，類似的為具有版本的容器建立“容器_versions”的曆史版本容器，並限制使用者不能建立/訪問“_versions”結尾的容器？
對象可以並行上傳，是否也可以並行下載？
大對象的更新操作，可以對其每個分段進行檢測，只更新有變動的分段？

這些都是可以做的工作點，前3個屬於API層的約束問題，較好實現；後2個應權衡swift的實現機制，做一些測試進行驗證。

更新更新

為了給自己和看文的你更多的思考空間，我就不在上面每條問題的下面直接給出目前的想法了，更新在這裡=D：

1. 關於Object的類型定義問題。

確實需要增加一個 X-Object-Manifest 屬性，雖然分段的過程我們是希望對SDK使用者透明，但也不排除人家也有這個權利知道某個資訊清單檔的真實身份。做了測試，在對Container中的對象進行listing操作時，以JSON格式擷取詳情為例，以下為返回內容：

[
{"hash": "c4ca4238a0b923820dcc509a6f75849b", "last_modified": "2013-03-21T13:51:18.917260", "bytes": 1, "name": "1", "content_type": "application/x-www-form-urlencoded"}, {"hash": "c81e728d9d4c2f636f067f89cc14862c", "last_modified": "2013-03-21T13:51:41.530770", "bytes": 1, "name": "2", "content_type": "application/x-www-form-urlencoded"}, {"hash": "eccbc87e4b5ce2fe28308fd9f2a7baf3", "last_modified": "2013-03-21T13:51:59.653640", "bytes": 1, "name": "3", "content_type": "application/x-www-form-urlencoded"}, {"hash": "d41d8cd98f00b204e9800998ecf8427e", "last_modified": "2013-03-21T13:55:33.353110", "bytes": 0, "name": "myobject", "content_type": "application/x-www-form-urlencoded"}, {"hash": "c4ca4238a0b923820dcc509a6f75849b", "last_modified": "2013-03-21T13:54:19.956880", "bytes": 1, "name": "myobject/1", "content_type": "application/x-www-form-urlencoded"}, {"hash": "c81e728d9d4c2f636f067f89cc14862c", "last_modified": "2013-03-21T13:54:32.005000", "bytes": 1, "name": "myobject/2", "content_type": "application/x-www-form-urlencoded"}, {"hash": "eccbc87e4b5ce2fe28308fd9f2a7baf3", "last_modified": "2013-03-21T13:54:42.420390", "bytes": 1, "name": "myobject/3", "content_type": "application/x-www-form-urlencoded"}, {"hash": "d41d8cd98f00b204e9800998ecf8427e", "last_modified": "2013-03-21T13:27:49.747290", "bytes": 0, "name": "repost_backup2.sql", "content_type": "application/x-sql"},{"hash": "b2cfa4183267af678ea06c7407d4d6d8", "last_modified": "2013-03-21T13:16:14.842310", "bytes": 10, "name": "testFile", "content_type": "application/octet-stream"}
]

標紅的兩個對象實際上都是資訊清單檔，但是在列表中卻與其他普通對象沒有任何區別：除了長度為0。但需要知道的是，就是一個普通對象也可以是長度為0的呀。所以 X-Object-Manifest 在這裡幾乎用不到。

然而，對資訊清單檔執行HEAD或GET操作，我們就可以看到 X-Object-Manifest 了，並且對象的長度也不再是0，而是分段對象的總和，即大對象的真正長度。因此，我們為Object對象添加manifest屬性的用武之地就是“對資訊清單檔執行HEAD或GET操作”。

2. 容器的listing操作。

Swift CLI 將分段對象單獨存在另一個容器中的方式蠻好的，這樣可以避免對目標容器listing時出現很多詭異的分段對象（分段對象的屬性和普通對象無區別，所以很難做過濾）。

然而，swift CLI 建立的容器也與普通容器沒差別，因此在對Account做listing操作的時候會多出一些xxx_segments容器，這樣也是不好的。

一種想法是限制使用者容器命名，以“_segments”結尾的名稱不得用於容器；

另一種想法是保留一個 X-Container-Meta-Segment 屬性，類似程式設計語言裡的保留字，屬性值為分段對象的資訊清單檔所在的容器名稱（不同容器公用一個分段容器時，可以考慮設定其他的值，總之是需要這個屬性來做區別）。這樣可以在SDK層根據X-Container-Meta-Segment過濾，從而在account listing時隱藏分段對象。

可是，以上兩種基於API層的過濾改進還是存在問題，即對account進行HEAD操作時顯示的容器數量還是包含分段容器的，因此如果要很完美的做到“透明”，則不可避免的需要動到源碼，而容器在ring上的分布也因此受到影響。

感覺上還是沒有完美的方案，所以根據需求權衡吧，或者直接放棄“透明”的想法，讓SDK使用者自己也做一些業務約束。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More