C++中string字符串分割函數split()的4種實現方法

如:

string str1 = "This is a test";
string str2 = "This-is-a-test";
string str2 = "This+is+a+test";

我們如何將以上字符串按照某種分隔符( ,-,+),將其分割成四個子串,其值分別為 “This” “is” “a” “test” 。

一、使用stringstream流

這裡我們隻需要用到 istringstream(字符串輸入流) 構造字符串流,然後從字符串流中按照一定的格式讀取數據即可。

通常我們使用 cin 從流中讀取數據,而我們也可以使用 getline 讀取,而後者在讀取時可以選擇接受的數據格式,其函數原型如下:

// istream & getline(char* buf, int bufSize);    // 讀到 \n 為止
istream & getline(char* buf, int bufSize, char delim); //讀到 delim 字符為止
                // \n 或 delim 都不會被讀入 buf,但會被從文件輸入流緩沖區中取走

 因此,我們可以按照此方式設計一個C++中的string split函數。

void Stringsplit(string str,const const char split)
{
    istringstream iss(str);    // 輸入流
    string token;            // 接收緩沖區
    while (getline(iss, token, split))    // 以split為分隔符
    {
        cout << token << endl; // 輸出
    }
}

如此,我們就設計出瞭我們的Stringsplit() 函數。該函數有以下 2 種語法格式

void Stringsplit(string str,const const char split);
// 默認將傳入的字符串str以split為分隔符進行分割,並將得到的子串打印在屏幕上,無返回值
void Stringsplit(string str, const const char split,vector<string>& rst);
// 默認將傳入的字符串str以split為分隔符進行分割,    不會將子串打印在屏幕上,無返回值
//                     分割的子串將會保存在rst數組中被帶出函數。

 以上,我們簡單的設計瞭一種C++中的分割字符串的函數,下面來看一個測試用例:

int main() {
    string str("This is a test");
    Stringsplit(str, ' ');        // 打印子串
    
    vector<string> strList;
    string str2("This-is-a-test");
    Stringsplit(str2, '-', strList);    // 將子串存放到strList中
    for (auto s : strList)
        cout << s << " ";
    cout << endl;
    return 0;
}

# 輸出
This
is
a
test
This is a test

二、使用string類提供的find方法與substr方法

find函數原型: 

size_type find( const basic_string& str, size_type pos = 0 ) const;

參數:

str – 要搜索的 string , pos – 開始搜索的位置

返回值

找到的子串的首字符位置,或若找不到這種子串則為 npos 。

substr函數原型: 

basic_string substr( size_type pos = 0, size_type count = npos ) const;

參數:

pos – 要包含的首個字符的位置 ,count – 子串的長度

返回值

含子串 [pos, pos+count) 的 string 。

由以上兩個函數我們便可以設計出我們的Stringsplit()來。同時,因為find()函數查找的可以是字符串,因此我們的分隔符可以是單個的字符,也可以是一個字符串。 

// 使用字符分割
void Stringsplit(const string& str, const char split, vector<string>& res)
{
    if (str == "")        return;
    //在字符串末尾也加入分隔符,方便截取最後一段
    string strs = str + split;
    size_t pos = strs.find(split);
 
    // 若找不到內容則字符串搜索函數返回 npos
    while (pos != strs.npos)
    {
        string temp = strs.substr(0, pos);
        res.push_back(temp);
        //去掉已分割的字符串,在剩下的字符串中進行分割
        strs = strs.substr(pos + 1, strs.size());
        pos = strs.find(split);
    }
}
// 使用字符串分割
void Stringsplit(const string& str, const string& splits, vector<string>& res)
{
    if (str == "")        return;
    //在字符串末尾也加入分隔符,方便截取最後一段
    string strs = str + splits;
    size_t pos = strs.find(splits);
    int step = splits.size();
 
    // 若找不到內容則字符串搜索函數返回 npos
    while (pos != strs.npos)
    {
        string temp = strs.substr(0, pos);
        res.push_back(temp);
        //去掉已分割的字符串,在剩下的字符串中進行分割
        strs = strs.substr(pos + step, strs.size());
        pos = strs.find(splits);
    }
}

下面是一個測試用例:

int main()
{
    vector<string> strList;
    string str("This-is-a-test");
    Stringsplit(str, '-', strList);
    for (auto s : strList)
        cout << s << " ";
    cout << endl;
 
    vector<string> strList2;
    string str2("This%20is%20a%20test");
    Stringsplit(str2, "%20", strList2);
    for (auto s : strList2)
        cout << s << " ";
    cout << endl;
    return 0;
}

# 輸出
This is a test
This is a test

三、使用C庫函數strtok

char* strtok( char* str, const char* delim );

參數:

  • str – 指向要記號化的空終止字節字符串的指針
  • delim – 指向標識分隔符的空終止字節字符串的指針

返回值:

指向下個記號起始的指針,或若無更多記號則為空指針。

需要註意的是,該函數使用一個全局的靜態變量來保存每次分割後的位置,因此在多線程中是不安全的,這裡我們也可以選擇使用它的線程安全版本

 char *strtok_r(char *str, const char *delim, char **saveptr); 。
void Stringsplit(const string& str, const string& split, vector<string>& res)
{
    char* strc = new char[str.size() + 1];
    strcpy(strc, str.c_str());   // 將str拷貝到 char類型的strc中
    char* temp = strtok(strc, split.c_str());
    while (temp != NULL)
    {
        res.push_back(string(temp));        
        temp = strtok(NULL, split.c_str());    // 下一個被分割的串
    }
    delete[] strc;
}

如此,我們的使用 strtok 版本的Stringsplit() 就完成瞭。不過,我們使用這種方法實現的字符串分割函數隻能根據字符來分割,而我們傳入的參數是字符串類型,這樣可能會對函數的使用這造成誤導(註:參數傳入字符串用的雙引號,傳入字符用的單引號),因此我們也可以使用下面的方法封裝一個參數是字符類型的函數。

void Stringsplit(const string& str, const char split, vector<string>& res)
{
    Stringsplit(str, string(1,split), res);    // 調用上一個版本的Stringsplit()
}

下面給出一個測試用例,我們分別使用單/雙引號傳入分割的限定字符。

int main()
{
    vector<string> strList;
    string str("This+is+a+test");
    Stringsplit(str, '+', strList);
    for (auto s : strList)
        cout << s << " ";
    cout << endl;
 
    vector<string> strList2;
    string str2("This-is-a-test");
    Stringsplit(str2, "-", strList2);
    for (auto s : strList2)
        cout << s << " ";
    cout << endl;
    return 0;
}

四、使用regex_token_iterator(正則表達式)

正則表達式(regular expression)描述瞭一種字符串匹配的模式(pattern),可以用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。 

而在C++的正則中,把這種操作稱為Tokenize分詞(或者叫切割)。這種操作剛好可以滿足我們的需求,用模板類regex_token_iterator<>提供分詞迭代器,可以完成字符串的分割。

void Stringsplit(const string& str, const string& split, vector<string>& res)
{
    //std::regex ws_re("\\s+"); // 正則表達式,匹配空格 
    std::regex reg(split);        // 匹配split
    std::sregex_token_iterator pos(str.begin(), str.end(), reg, -1);
    decltype(pos) end;              // 自動推導類型 
    for (; pos != end; ++pos)
    {
        res.push_back(pos->str());
    }
}

測試用例:

int main()
{
    // 單個字符分詞
    vector<string> strList;
    string str("This is a test");
    Stringsplit(str," ", strList);
    for (auto s : strList)
        cout << s << " ";
    cout << endl;
 
    // 使用字符串分詞
    vector<string> strList2;
    string str2("ThisABCisABCaABCtest");
    Stringsplit(str2, "ABC", strList2);
    for (auto s : strList2)
        cout << s << " ";
    cout << endl;
}

# 輸出
This is a test
This is a test

總結

到此這篇關於C++中string字符串分割函數split()的4種實現方法的文章就介紹到這瞭,更多相關C++ 字符串分割函數split()內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: