C++中string字符串分割函數split()的4種實現方法
如:
string str1 = "This is a test"; string str2 = "This-is-a-test"; string str2 = "This+is+a+test";
我們如何將以上字符串按照某種分隔符( ,-,+),將其分割成四個子串,其值分別為 “This” “is” “a” “test” 。
一、使用stringstream流
這裡我們隻需要用到 istringstream(字符串輸入流) 構造字符串流,然後從字符串流中按照一定的格式讀取數據即可。
通常我們使用 cin 從流中讀取數據,而我們也可以使用 getline 讀取,而後者在讀取時可以選擇接受的數據格式,其函數原型如下:
// istream & getline(char* buf, int bufSize); // 讀到 \n 為止 istream & getline(char* buf, int bufSize, char delim); //讀到 delim 字符為止 // \n 或 delim 都不會被讀入 buf,但會被從文件輸入流緩沖區中取走
因此,我們可以按照此方式設計一個C++中的string split函數。
void Stringsplit(string str,const const char split) { istringstream iss(str); // 輸入流 string token; // 接收緩沖區 while (getline(iss, token, split)) // 以split為分隔符 { cout << token << endl; // 輸出 } }
如此,我們就設計出瞭我們的Stringsplit() 函數。該函數有以下 2 種語法格式
void Stringsplit(string str,const const char split); // 默認將傳入的字符串str以split為分隔符進行分割,並將得到的子串打印在屏幕上,無返回值 void Stringsplit(string str, const const char split,vector<string>& rst); // 默認將傳入的字符串str以split為分隔符進行分割, 不會將子串打印在屏幕上,無返回值 // 分割的子串將會保存在rst數組中被帶出函數。
以上,我們簡單的設計瞭一種C++中的分割字符串的函數,下面來看一個測試用例:
int main() { string str("This is a test"); Stringsplit(str, ' '); // 打印子串 vector<string> strList; string str2("This-is-a-test"); Stringsplit(str2, '-', strList); // 將子串存放到strList中 for (auto s : strList) cout << s << " "; cout << endl; return 0; }
# 輸出
This
is
a
test
This is a test
二、使用string類提供的find方法與substr方法
find函數原型:
size_type find( const basic_string& str, size_type pos = 0 ) const;
參數:
str – 要搜索的 string , pos – 開始搜索的位置
返回值
找到的子串的首字符位置,或若找不到這種子串則為 npos 。
substr函數原型:
basic_string substr( size_type pos = 0, size_type count = npos ) const;
參數:
pos – 要包含的首個字符的位置 ,count – 子串的長度
返回值
含子串 [pos, pos+count) 的 string 。
由以上兩個函數我們便可以設計出我們的Stringsplit()來。同時,因為find()函數查找的可以是字符串,因此我們的分隔符可以是單個的字符,也可以是一個字符串。
// 使用字符分割 void Stringsplit(const string& str, const char split, vector<string>& res) { if (str == "") return; //在字符串末尾也加入分隔符,方便截取最後一段 string strs = str + split; size_t pos = strs.find(split); // 若找不到內容則字符串搜索函數返回 npos while (pos != strs.npos) { string temp = strs.substr(0, pos); res.push_back(temp); //去掉已分割的字符串,在剩下的字符串中進行分割 strs = strs.substr(pos + 1, strs.size()); pos = strs.find(split); } } // 使用字符串分割 void Stringsplit(const string& str, const string& splits, vector<string>& res) { if (str == "") return; //在字符串末尾也加入分隔符,方便截取最後一段 string strs = str + splits; size_t pos = strs.find(splits); int step = splits.size(); // 若找不到內容則字符串搜索函數返回 npos while (pos != strs.npos) { string temp = strs.substr(0, pos); res.push_back(temp); //去掉已分割的字符串,在剩下的字符串中進行分割 strs = strs.substr(pos + step, strs.size()); pos = strs.find(splits); } }
下面是一個測試用例:
int main() { vector<string> strList; string str("This-is-a-test"); Stringsplit(str, '-', strList); for (auto s : strList) cout << s << " "; cout << endl; vector<string> strList2; string str2("This%20is%20a%20test"); Stringsplit(str2, "%20", strList2); for (auto s : strList2) cout << s << " "; cout << endl; return 0; }
# 輸出
This is a test
This is a test
三、使用C庫函數strtok
char* strtok( char* str, const char* delim );
參數:
- str – 指向要記號化的空終止字節字符串的指針
- delim – 指向標識分隔符的空終止字節字符串的指針
返回值:
指向下個記號起始的指針,或若無更多記號則為空指針。
需要註意的是,該函數使用一個全局的靜態變量來保存每次分割後的位置,因此在多線程中是不安全的,這裡我們也可以選擇使用它的線程安全版本
char *strtok_r(char *str, const char *delim, char **saveptr); 。
void Stringsplit(const string& str, const string& split, vector<string>& res) { char* strc = new char[str.size() + 1]; strcpy(strc, str.c_str()); // 將str拷貝到 char類型的strc中 char* temp = strtok(strc, split.c_str()); while (temp != NULL) { res.push_back(string(temp)); temp = strtok(NULL, split.c_str()); // 下一個被分割的串 } delete[] strc; }
如此,我們的使用 strtok 版本的Stringsplit() 就完成瞭。不過,我們使用這種方法實現的字符串分割函數隻能根據字符來分割,而我們傳入的參數是字符串類型,這樣可能會對函數的使用這造成誤導(註:參數傳入字符串用的雙引號,傳入字符用的單引號),因此我們也可以使用下面的方法封裝一個參數是字符類型的函數。
void Stringsplit(const string& str, const char split, vector<string>& res) { Stringsplit(str, string(1,split), res); // 調用上一個版本的Stringsplit() }
下面給出一個測試用例,我們分別使用單/雙引號傳入分割的限定字符。
int main() { vector<string> strList; string str("This+is+a+test"); Stringsplit(str, '+', strList); for (auto s : strList) cout << s << " "; cout << endl; vector<string> strList2; string str2("This-is-a-test"); Stringsplit(str2, "-", strList2); for (auto s : strList2) cout << s << " "; cout << endl; return 0; }
四、使用regex_token_iterator(正則表達式)
正則表達式(regular expression)描述瞭一種字符串匹配的模式(pattern),可以用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。
而在C++的正則中,把這種操作稱為Tokenize分詞(或者叫切割)。這種操作剛好可以滿足我們的需求,用模板類regex_token_iterator<>提供分詞迭代器,可以完成字符串的分割。
void Stringsplit(const string& str, const string& split, vector<string>& res) { //std::regex ws_re("\\s+"); // 正則表達式,匹配空格 std::regex reg(split); // 匹配split std::sregex_token_iterator pos(str.begin(), str.end(), reg, -1); decltype(pos) end; // 自動推導類型 for (; pos != end; ++pos) { res.push_back(pos->str()); } }
測試用例:
int main() { // 單個字符分詞 vector<string> strList; string str("This is a test"); Stringsplit(str," ", strList); for (auto s : strList) cout << s << " "; cout << endl; // 使用字符串分詞 vector<string> strList2; string str2("ThisABCisABCaABCtest"); Stringsplit(str2, "ABC", strList2); for (auto s : strList2) cout << s << " "; cout << endl; }
# 輸出
This is a test
This is a test
總結
到此這篇關於C++中string字符串分割函數split()的4種實現方法的文章就介紹到這瞭,更多相關C++ 字符串分割函數split()內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!