Go語言並發爬蟲的具體實現

Posted on 2021-12-14 by WalkonNet

寫在前面

這篇文章主要讓大傢明白多線程爬蟲，因為go語言實現並發是很容易的。

這次的服務端，是我們之前搭建的電子商城平臺，所以我們不擔心ip被封之類的問題。
而實際生產環境中，其實我們都是用python爬蟲的。python實現多線程也很簡單。

這次我們可以試試新玩法，試試go語言的並發爬蟲。

主要是爬取第一頁的商品，爬取十次，比較單線程和多線程的時間。

1. 單線程爬蟲

定義一個用戶

var Client http.Client

主函數

func main() {
	url := "http://localhost:3000/api/v1/products"
	start := time.Now()
	for i := 0; i < 10; i++ {
		Spider(url, i)
	}
	elapsed := time.Since(start)
	fmt.Printf("Time %s", elapsed)
}

爬取函數

func Spider(url string, i int) {
	reqSpider, err := http.NewRequest("GET", url, nil)
	if err != nil {
		log.Fatal(err)
	}
	reqSpider.Header.Set("content-length", "0")
	reqSpider.Header.Set("accept", "*/*")
	reqSpider.Header.Set("x-requested-with", "XMLHttpRequest")
	respSpider, err := Client.Do(reqSpider)
	if err != nil {
		log.Fatal(err)
	}
	bodyText, _ := ioutil.ReadAll(respSpider.Body)
	var result Result
	_ = json.Unmarshal(bodyText, &result)
	fmt.Println(i,result.Data)
}

運行時間為：651.8207ms

在這裡插入圖片描述

2. 多線程爬蟲

2.1 channel main函數

我們構造一個無緩沖的通道，來阻塞主進程，等待子進程的執行。

func main() {
	url := "http://localhost:3000/api/v1/products"
	ch := make(chan bool)
	start := time.Now()
	for i := 0; i < 10; i++ {
		go Spider(url, ch, i)
	}
	for i := 0; i < 10; i++ {
		<-ch
	}
	elapsed := time.Since(start)
	fmt.Printf("Time %s", elapsed)
}

最後記得在爬蟲的結束的時候，把值寫入到通道中，不然會一直阻塞主進程

在這裡插入圖片描述

運行時間：187.7921ms 比之前快瞭非常多。

在這裡插入圖片描述

2.2 sync.WaitGroup

定義一個進程組並加10個進程

	var wg sync.WaitGroup
	wg.Add(10)

開辟十個goruntime

	for i := 0; i < 10; i++ {
		go func(i int) {
			defer wg.Done()
			SpiderWaitGroup(url,i)
		}(i)
	}

阻塞主進程

wg.Wait()

結果：64.5246ms

在這裡插入圖片描述

3. 源碼地址

GitHub地址：https://github.com/CocaineCong/Go-Spider-Demo

	NormalStart(url) // 單線程爬蟲
	ChannelStart(url) // Channel多線程爬蟲
	WaitGroupStart(url) // Wait 多線程爬蟲

其實多線程的兩種都差不多的，隻是有時候會因為機器的原因而導致一些誤差。

在這裡插入圖片描述

到此這篇關於Go語言並發爬蟲的具體實現的文章就介紹到這瞭,更多相關Go語言並發爬蟲內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Go語言並發爬蟲的具體實現

目錄

寫在前面

1. 單線程爬蟲

2. 多線程爬蟲

2.1 channel main函數

2.2 sync.WaitGroup

3. 源碼地址

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

寫在前面

1. 單線程爬蟲

2. 多線程爬蟲

2.1 channel main函數

2.2 sync.WaitGroup

3. 源碼地址

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆