C++超詳細講解模擬實現vector

1. 模擬實現vector

我們模擬實現是為瞭加深對這個容器的理解,不是為瞭造更好的輪子。

快速搭一個vector的架子

// vector.h
#pragma once
#include <assert.h>
// 模擬實現 -- 加深對這個容器理解,不是為瞭造更好的輪子
namespace Yuucho
{
	template<class T>
	class vector
	{
	public:
		typedef T* iterator;
		typedef const T* const_iterator;
		vector()
			:_start(nullptr)
			, _finish(nullptr)
			, _endofstorage(nullptr)
		{}
        // 迭代器區間來構造,用模板的原因是存儲的類型多種多樣
        template <class InputIterator>
		vector(InputIterator first, InputIterator last)
			: _start(nullptr)
			, _finish(nullptr)
			, _endofstorage(nullptr)
		{
			while (first != last)
			{
				push_back(*first);
				++first;
			}
		}
        // 用n個T去構造,但是會隱藏匹配問題
        vector(size_t n, const T& val = T())
			: _start(nullptr)
			, _finish(nullptr)
			, _endofstorage(nullptr)
		{
			reserve(n);
			for (size_t i = 0; i < n; ++i)
			{
				push_back(val);
			}
		}
        void swap(vector<T>& v)
		{
			std::swap(_start, v._start);
			std::swap(_finish, v._finish);
			std::swap(_endofstorage, v._endofstorage);
		}
        //拷貝構造函數
        vector(const vector<T>& v)
			: _start(nullptr)
			, _finish(nullptr)
			, _endofstorage(nullptr)
		{
			vector<T> tmp(v.begin(), v.end());
			swap(tmp);
		}
		// 拷貝賦值函數
		vector<T>& operator=(vector<T> v)
		{
			swap(v);
			return *this;
		}
        // 資源管理
        ~vector()
        {
            if(_start)
            {
                delete[] _start;
                _start = _finish = _endofstorage = nullptr;
            }
        }
		iterator begin()
		{
			return _start;
		}
		iterator end()
		{
			return _finish;
		}
		const_iterator begin() const
		{
			return _start;
		}
		const_iterator end() const
		{
			return _finish;
		}
		// 默認是內聯,頻繁調用不用擔心棧幀消耗
		size_t size() const
		{
			return _finish - _start;
		}
		size_t capacity() const
		{
			return _endofstorage - _start;
		}
		void reserve(size_t n)
		{
		}
		//void resize(size_t n, const T& val = T())
		void resize(size_t n, T val = T())
		{
		}
		void push_back(const T& x)
		{
		}
		void pop_back()
		{
		}
		T& operator[](size_t pos)
		{
			assert(pos < size());
			return _start[pos];
		}
		const T& operator[](size_t pos) const
		{
			assert(pos < size());
			return _start[pos];
		}
		iterator insert(iterator pos, const T& x)
		{
		}
        void clear()
        {
            _finish = _start;
        }
	private:
		iterator _start;
		iterator _finish;
		iterator _endofstorage;
	};
}

2. vector常用接口

2.1 reserve

跟string的擴容思路一樣。一般不考慮縮容(n<capacity),因為這是時間換空間的做法,我們要的是效率。

錯誤代碼:

void reserve(size_t n)
{
    // 一般不考慮縮容(n<capacity)
    if(n > capacity())
    {
        T* tmp = new T[n];
    	// capacity為0,n就是4(_endofstorage、_start都為nuptr)
        // 有數據才拷貝
        if(_start)
        {
            memcpy(tmp, _start, size()*sizeof(T));
        	delete[] _start;
        }
        _start = tmp; // 註意,這裡start位置變瞭
    }
    // 更新_finish、_endofstorage
    _finish = _start + size();  // size():_finish - _start, _finish還是空指針
    _endofstorage = _start + capacity;  //capacity起始為0,也不對
}

修正後的代碼:

void reserve(size_t n)
{
    // 記錄size
    size_t sz = size();
    if(n > capacity())
    {
        T* tmp = new T[n];
        if(_start)
        {
            //memcpy還會隱藏更深層次的深淺拷貝問題,講解在最後
            memcpy(tmp, _start, size()*sizeof(T));
        	delete[] _start;
        }
        _start = tmp; // 註意,這裡start位置變瞭
    }
    // 更新_finish、_endofstorage
    _finish = _start + sz;  
    _endofstorage = _start + n;
}

2.2 resize

resize是開空間+初始化,size_type就是size_t,value_type就是T。

C++模板出來瞭語法就必須支持內置類型的默認構造、析構函數。

int()            // 默認構造是0
double()        // 默認構造是0.0
int*()            // 默認構造是nullptr

思路與string一樣

//void resize(size_t n, const T& val = T())  嚴格的編譯器編不過,它認為T是臨時對象
// 按照庫裡的寫法
void resize(size_t n, T val = T())  // T類型的匿名對象,默認構造函數很重要,內置類型咋辦?
{
    if (n > capacity())
	{
		reserve(n);
	}
	if (n > size())
    {
		while (_finish < _start + n)
		{
			*_finish = val;
			++_finish;
		}
	}
    // n < capacity就是刪除數據
	else
	{
		_finish = _start + n;
	}
}

2.3 push_back

void push_back(const T& x)
{
    // 滿瞭先擴容
    if(_finish == _endofstorage)
    {
        size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
        reserve(newCapacity);
    }
    // 插入數據
    *_finish = x;
    ++_finish;
}

復用insert:

void push_back(const T& x)
{
    insert(end(), x);
}

2.4 pop_back()

void pop_back()
{
    // 如果不為空
    if(_finish > _start)
    {
        --_finish;
    }
}

復用erase:

void pop_back()
{
    erase(end()-1);
}

2.5 insert

庫裡面的insert是帶返回值的,我們先不管,先寫一個沒有返回值的看看。

void insert(iterator pos, const T& x)
{
	// 檢查參數
	assert(pos >= _start && pos <= _finish);
	// 擴容
	if (_finish == _endofstorage)
	{
		size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
		reserve(newCapacity);
	}
	// 挪動數據
	iterator end = _finish - 1;
	while (end >= pos)
	{
		*(end + 1) = *end;
		--end;
	}
	*pos = x;
	++_finish;
}

(1) 迭代器失效第一種場景

yeahbaby,現在我們就可以來講講迭代器失效的問題瞭,嘿嘿嘿。

如果插入時沒有擴容,ok,那還好說,沒有問題。

如果擴容瞭,reserve會去更新_start_finish,而不會去更新pos(pos還是會指向舊空間,迭代器發生瞭野指針問題)。在VS環境下,會用斷言暴力檢查出來的。在Linux環境下,檢查不出來這種情況,甚至對原來的it仍然可讀可寫。

ok,那我們在擴容時更新一下pos:

if (_finish == _endofstorage)
{
	size_t n = pos - _start;
	size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
	reserve(newCapacity);
	pos = _start + n;
}

(2)另一種場景

	void test_vector1()
	{
		// 在所有的偶數的前面插入2
		vector<int> v;
		//v.reserve(10);
		v.push_back(1);
		v.push_back(2);
		v.push_back(3);
		v.push_back(4);
		v.push_back(5);
		v.push_back(6);
		vector<int>::iterator it = v.begin();
		while (it != v.end())
		{
			if (*it % 2 == 0)
			{
				it = v.insert(it, 20);
				++it;
			}
			++it;
		}
		for (auto e : v)
		{
			cout << e << " ";
		}
		cout << endl;
	}
}

運行結果

導致斷言錯誤的原因是啥?為什麼不能在2的前面插入20?

同樣的道理,雖然我們修正瞭pos,但是我們是值傳遞,形參不會改變實參。所以it仍然是野指針。在VS環境下,會用斷言暴力檢查出來的。在Linux環境下,檢查不出來這種情況,甚至對原來的it仍然可讀可寫。

有小夥伴就會說瞭,傳引用不就行瞭嗎?

我們是不會用引用的,官方庫也沒有用引用。因為我要傳的是像v.begin()這樣的臨時對象怎麼辦。

更悲傷的是就算我提前把空間給你開好,保證插入時不需要擴容還是會出現問題。因為insert是在2之前插入20,++it後it仍指向2,這樣就導致不斷地在2之前插入20。這也是迭代器失效的一種場景。

修正後的代碼:

用返回值解決,官方庫裡返回的是指向新插入的第一個元素的迭代器。 那我們也這樣返回。

iterator insert(iterator pos, const T& x)
{
	// 檢查參數
	assert(pos >= _start && pos <= _finish);
	// 擴容
	// 擴容以後pos就失效瞭,需要更新一下
	if (_finish == _endofstorage)
	{
		size_t n = pos - _start;
		size_t newCapacity = capacity() == 0 ? 4 : capacity() * 2;
		reserve(newCapacity);
		pos = _start + n;
	}
	// 挪動數據
	iterator end = _finish - 1;
	while (end >= pos)
	{
		*(end + 1) = *end;
		--end;
	}
	*pos = x;
	++_finish;
	return pos;
}

此時我們這樣使用就行:

while (it != v.end())
{
    if(*it % 2 == 0)
    {
        // 返回新插入的第一個元素的迭代器
        it = v.insert(it, 20);
        //還是指向2
        ++it;
    }
    // 指向2的後一位
    ++it;
}

運行結果

2.6 erase

一般vector刪除數據,都不考慮縮容的方案。

縮容方案:size() < capacity()/2時,可以考慮開一個size()大小的空間,拷貝數據,釋放舊空間。

縮容方案本質是時間換空間。一般設計都不會考慮縮容,因為實際比較關註時間效率,不關註空間效率,因為現在硬件設備空間都比較大,空間存儲也比較便宜。

我們這裡不考慮縮容方案。

erase返回最後一個被釋放元素的後一個元素的新位置。

iterator erase(iterator pos)
{
	assert(pos >= _start && pos < _finish);
	iterator it = pos + 1;
	while (it != _finish)
	{
		*(it - 1) = *it;
		++it;
	}
	//erase最後一個數據,則pos==_finish,pos真失效瞭,但仍然屬於這個容器
	--_finish;
	return pos;
}

VS中的vector也沒有考慮縮容方案,但是它對pos(如果縮容,pos就是野指針)進行瞭斷言檢查,不允許訪問和寫入。

(1)erase迭代器的失效都是意義變瞭,或者不在有效訪問數據的范圍。

(2)一般不會使用縮容的方案,那麼erase的失效,一般也不存在野指針的失效。

erase(pos)以後pos失效瞭,pos的意義變瞭,但是不同平臺下面對訪問pos的反應不一樣。VS會強制檢查,Linux則沒有嚴格的檢查機制。我們用的時候一定要小心,統一以失效角度去看待。

erase迭代器意義變瞭的場景(假設我們要刪除容器中的偶數):

2.7 構造函數的匹配問題

迭代器區間的構造函數的參數要求是同類型的,而第一個構造函數的第一個參數是size_t,int會涉及隱式類型轉換。所以參數為(10,2)的會匹配迭代器區間的構造函數,而參數為(10, ‘x’)的會匹配第一個構造函數。

這裡就會導致int類型被當作迭代器解引用,本質上是發生瞭構造函數的錯配問題。

解決方法:

源碼是通過再寫一個第一個參數為int類型的構造函數來解決的。

vector(int n, const T& val = T())
			: _start(nullptr)
			, _finish(nullptr)
			, _endofstoage(nullptr)
		{
			reserve(n);
			for (int i = 0; i < n; ++i)
			{
				push_back(val);
			}
		}

3. 更深層次的深淺拷貝問題

以楊輝三角為例:

class Solution {
public:
    vector<vector<int>> generate(int numRows) {
    vector<vector<int>> vv;
    // 先開辟楊輝三角的空間
    vv.resize(numRows);
    //初始化每一行
    for(size_t i = 0; i < numRows; ++i)
    {
        //每行個數依次遞增
        vv[i].resize(i+1, 0);
        // 每一行的第一個和最後一個都是1
        vv[i][0] = 1;
        vv[i][vv[i].size()-1] = 1;
    }
    for(size_t i = 0; i < vv.size(); ++i)
    {
        for(size_t j = 0; j < vv[i].size(); ++j)
        {
            if(vv[i][j] == 0)
            {
                //之間位置等於上一行j-1和j個相加
                vv[i][j] = vv[i-1][j-1] + vv[i-1][j];
            }
        }
    }
    return vv;
    }
};

我們自己寫的vector去跑這裡的楊輝三角會出現問題。

void test_vector2()
{
	vector<vector<int>> ret = Solution().generate(5);
	for (size_t i = 0; i < ret.size(); ++i)
	{
		for (size_t j = 0; j < ret[i].size(); ++j)
		{
			cout << ret[i][j] << " ";
		}
		cout << endl;
	}
	cout << endl;
}

為瞭方便大傢理解,我們把擴容的代碼拿下來。

void reserve(size_t n)
{
    // 記錄size
    size_t sz = size();
    if(n > capacity())
    {
        T* tmp = new T[n];
        if(_start)
        {
            memcpy(tmp, _start, size()*sizeof(T));
        	delete[] _start;
        }
        _start = tmp; // 註意,這裡start位置變瞭
    }
    // 更新_finish、_endofstorage
    _finish = _start + sz;  
    _endofstorage = _start + n;
}

vector<vector<int>> ret = Solution().generate(5);會去調用拷貝構造,拷貝構造又去調用瞭迭代器的區間構造函數,迭代器區間構造函數又去調用瞭push_back,push_back又去調用瞭reserve。

因為push_back我們第一次開的空間是4,所以前4次的push_back都不會有問題,第5次push_back去調用reserve時就會出現問題。

因為擴容的時候tmp會把前4組的vector<int>數據memcpy下來,而memcpy是淺拷貝,拷貝下來的數據和原來的數據指向的是同一塊空間。關鍵是memcpy後又delete瞭舊空間,導致插入第5個vector<int>時前4組的數據被釋放瞭,成瞭野指針。

解決方法:

拷貝的時候不要用memcpy,使用拷貝賦值函數來完成,因為賦值函數會幫我們完成深拷貝。

void reserve(size_t n)
{
    // 記錄size
    size_t sz = size();
    if(n > capacity())
    {
        T* tmp = new T[n];
        if(_start)
        {
            //防止淺拷貝問題3
           for (size_t i = 0; i < size(); ++i)
			{
				tmp[i] = _start[i];
			}
        	delete[] _start;
        }
        _start = tmp; // 註意,這裡start位置變瞭
    }
    // 更新_finish、_endofstorage
    _finish = _start + sz;  
    _endofstorage = _start + n;
}

到此這篇關於C++超詳細講解模擬實現vector的文章就介紹到這瞭,更多相關C++ vector內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: