C++ string 詳解
任何人對本文進行引用都要標明作者是Nicolai M.Josuttis
///////////////////////////////////////////////////////////////////////////////////
C++ 語言是個十分優秀的語言,但優秀並不表示完美。還是有許多人不願意使用C或者C++,為什麼。原因眾多,其中之一就是C/C++的文本處理功能太麻煩,用起來很不方便。以前沒有接觸過其他語言時,每當別人這麼說,我總是不屑一顧,認為他們根本就沒有領會C++的精華,或者不太懂C++,現在我接觸 perl, php, 和Shell指令碼以後,開始理解了以前為什麼有人說C++文本處理不方便了。
舉例來說,如果文字格式設定是:使用者名稱 電話號碼,檔案名稱name.txt Tom 23245332 Jenny 22231231 Heny 22183942 Tom 23245332 ...
現在我們需要對使用者名稱排序,且只輸出不同的姓名。
那麼在shell 編程中,可以這樣用:
awk '{print $1}' name.txt | sort | uniq
簡單吧。
如果使用C/C++ 就麻煩了,他需要做以下工作: 先開啟檔案,檢測檔案是否開啟,如果失敗,則退出。 聲明一個足夠大得二維字元數組或者一個字元指標數組 讀入一行到字元空間 然後分析一行的結構,找到空格,存入字元數組中。 關閉檔案 寫一個排序函數,或者使用寫一個比較函數,使用sort()排序 遍曆數組,比較是否有相同的,如果有,則要刪除,copy... 輸出資訊
你可以用C++或者C語言去實現這個流程。如果一個人的主要工作就是處理這種類似的文本(例如做apache的日誌統計和分析),你說他會喜歡C/C++麼。
當然,有了STL,這些處理會得到很大的簡化。我們可以使用 fstream來代替麻煩的fopen fread fclose, 用vector來代替數組。最重要的是用 string來代替char * 數組,使用sort排序演算法來排序,用unique 函數來去重。聽起來好像很不錯。看看下面代碼(常式1):
#include <string>#include <iostream>#include <algorithm>#include <vector>#include <fstream>using namespace std;int main(){ ifstream in("name.txt"); string strtmp; vector<string> vect; while(getline(in, strtmp, '\n')) vect.push_back(strtmp.substr(0, strtmp.find(' '))); sort(vect.begin(), vect.end()); vector<string>::iterator it=unique(vect.begin(), vect.end()); copy(vect.begin(), it, ostream_iterator<string>(cout, "\n")); return 0;}
也還不錯吧,至少會比想象得要簡單得多。(代碼裡面沒有對錯誤進行處理,只是為了說明問題,不要效仿).
當然,在這個文字格式設定中,不用vector而使用map會更有擴充性,例如,還可通過人名找電話號碼等等,但是使用了map就不那麼好用sort了。你可以用map試一試。
這裡string的作用不只是可以儲存字串,還可以提供字串的比較,尋找等。在sort和unique函數中就預設使用了less 和equal_to函數, 上面的一段代碼,其實使用了string的以下功能: 儲存功能,在getline() 函數中 尋找功能,在find() 函數中 子串功能,在substr() 函數中 string operator < , 預設在sort() 函數中調用 string operator == , 預設在unique() 函數中調用
總之,有了string 後,C++的字元文本處理功能總算得到了一定補充,加上配合STL其他容器使用,其在文本處理上的功能已經與perl, shell, php的距離縮小很多了。 因此掌握string 會讓你的工作事半功倍。
1 string 使用
其實,string並不是一個單獨的容器,只是basic_string 模板類的一個typedef 而已,相對應的還有wstring, 你在string 標頭檔中你會發現下面的代碼:
extern "C++" {typedef basic_string <char> string;typedef basic_string <wchar_t> wstring;} // extern "C++"
由於只是解釋string的用法,如果沒有特殊的說明,本文並不區分string 和 basic_string的區別。
string 其實相當於一個儲存字元的序列容器,因此除了有字串的一些常用操作以外,還有包含了所有的序列容器的操作。字串的常用操作包括:增加、刪除、修改、尋找比較、連結、輸入、輸出等。詳細函數列表參看附錄。不要害怕這麼多函數,其實有許多是序列容器帶有的,平時不一定用的上。
如果你要想瞭解所有函數的詳細用法,你需要查看basic_string,或者下載STL編程手冊。這裡通過執行個體介紹一些常用函數。
1.1 充分使用string 操作符
string 重載了許多操作符,包括 +, +=, <, =, , [], <<, >>等,正式這些操作符,對字串操作非常方便。先看看下面這個例子:
#include <string>#include <iostream>using namespace std;int main(){ string strinfo="Please input your name:"; cout << strinfo ; cin >> strinfo; if( strinfo == "winter" ) cout << "you are winter!"<<endl; else if( strinfo != "wende" ) cout << "you are not wende!"<<endl; else if( strinfo < "winter") cout << "your name should be ahead of winter"<<endl; else cout << "your name should be after of winter"<<endl; strinfo += " , Welcome to China!"; cout << strinfo<<endl; cout <<"Your name is :"<<endl; string strtmp = "How are you? " + strinfo; for(int i = 0 ; i < strtmp.size(); i ++) cout<<strtmp[i]; return 0;}
下面是程式的輸出
Please input your name:Heroyou are not wende!Hero , Welcome to China!How are you? Hero , Welcome to China!
有了這些操作符,在STL中仿函數都可以直接使用string作為參數,例如 less, great, equal_to 等,因此在把string作為參數傳遞的時候,它的使用和int 或者float等已經沒有什麼區別了。例如,你可以使用:
map<string, int> mymap; //以上預設使用了 less<string>
有了 operator + 以後,你可以直接連加,例如:
string strinfo="Winter";string strlast="Hello " + strinfo + "!";string strtest="Hello " + strinfo + " Welcome" + " to China" + " !";//你還可以這樣:
看見其中的特點了嗎。只要你的等式裡面有一個 string 對象,你就可以一直連續"+",但有一點需要保證的是,在開始的兩項中,必須有一項是 string 對象。其原理很簡單:
系統遇到"+"號,發現有一項是string 對象。 系統把另一項轉化為一個臨時 string 對象。 執行 operator + 操作,返回新的臨時string 對象。 如果又發現"+"號,繼續第一步操作。
由於這個等式是由左到右開始檢測執行,如果開始兩項都是const char ,程式自己並沒有定義兩個const char 的加法,編譯的時候肯定就有問題了。
有了操作符以後,assign(), append(), compare(), at()等函數,除非有一些特殊的需求時,一般是用不上。當然at()函數還有一個功能,那就是檢查下標是否合法,如果是使用:
string str="winter";//下面一行有可能會引起程式中斷錯誤str[100]='!';//下面會拋出異常:throws: out_of_rangecout<<str.at(100)<<endl;
瞭解了嗎。如果你希望效率高,還是使用[]來訪問,如果你希望穩定性好,最好使用at()來訪問。
1.2 眼花繚亂的string find 函數
由於尋找是使用最為頻繁的功能之一,string 提供了非常豐富的尋找函數。其列表如下: 函數名 描述 find 尋找 rfind 反向尋找 find_first_of 尋找包含子串中的任何字元,返回第一個位置 find_first_not_of 尋找不包含子串中的任何字元,返回第一個位置 find_last_of 尋找包含子串中的任何字元,返回最後一個位置 find_last_not_of 尋找不包含子串中的任何字元,返回最後一個位置以上函數都是被重載了4次,以下是以find_first_of 函數為例說明他們的參數,其他函數和其參數一樣,也就是說總共有24個函數 :
size_type find_first_of(const basic_string& s, size_type pos = 0)size_type find_first_of(const charT* s, size_type pos, size_type n)size_type find_first_of(const charT* s, size_type pos = 0)size_type find_first_of(charT c, size_type pos = 0)
所有的尋找函數都返回一個size_type類型,這個傳回值一般都是所找到字串的位置,如果沒有找到,則返回string::npos。有一點需要特別注意,所有和string::npos的比較一定要用string::size_type來使用,不要直接使用int 或者unsigned int等類型。其實string::npos表示的是-1, 看看標頭檔:
template <class _CharT, class _Traits, class _Alloc>const basic_string<_CharT,_Traits,_Alloc>::size_typebasic_string<_CharT,_Traits,_Alloc>::npos= basic_string<_CharT,_Traits,_Alloc>::size_type) -1;
find 和 rfind 都還比較容易理解,一個是正向匹配,一個是逆向匹配,後面的參數pos都是用來指定起始尋找位置。對於find_first_of 和find_last_of 就不是那麼好理解。
find_first_of 是給定一個要尋找的字元集,找到這個字元集中任何一個字元所在字串中第一個位置。或許看一個例子更容易明白。
有這樣一個需求:過濾一行開頭和結尾的所有非英文字元。看看用string 如何?:
#include <string>#include <iostream>using namespace std;int main(){ string strinfo=" //*---Hello Word!......------"; string strset="ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"; int first = strinfo.find_first_of(strset); if(first == string::npos) { cout<<"not find any characters"<<endl; return -1; } int last = strinfo.find_last_of(strset); if(last == string::npos) { cout<<"not find any characters"<<endl; return -1; } cout << strinfo.substr(first, last - first + 1)<<endl; return 0;}
這裡把所有的英文字母大小寫作為了需要尋找的字元集,先尋找第一個英文字母的位置,然後尋找最後一個英文字母的位置,然後用substr 來的到中間的一部分,用於輸出結果。下面就是其結果:
Hello Word
前面的符號和後面的符號都沒有了。像這種用法可以用來尋找分隔字元,從而把一個連續的字串分割成為幾部分,達到 shell 命令中的 awk 的用法。特別是當分隔字元有多個的時候,可以一次指定。例如有這樣的需求:
張三|3456123, 湖南李四,4564234| 湖北王小二, 4433253|北京...
我們需要以 "|" ","為分隔字元,同時又要過濾空格,把每行分成相應的欄位。可以作為你的一個作業來試試,要求代碼簡潔。
1.3 string insert, replace, erase
瞭解了string 的操作符,尋找函數和substr,其實就已經瞭解了string的80%的操作了。insert函數, replace函數和erase函數在使用起來相對簡單。下面以一個例子來說明其應用。 string只是提供了按照位置和區間的replace函數,而不能用一個string字串來替換指定string中的另一個字串。這裡寫一個函數來實現這個功能:
void string_replace(string & strBig, const string & strsrc, const string &strdst){ string::size_type pos=0; string::size_type srclen=strsrc.size(); string::size_type dstlen=strdst.size(); while( (pos=strBig.find(strsrc, pos)) != string::npos) { strBig.replace(pos, srclen, strdst); pos += dstlen; }}