如何在Pycharm中制作自己的爬蟲代碼模板
寫作背景
最近本菜雞有幾個網站想要爬,每個爬蟲的代碼不一樣,但 有某種聯系,可以抽出一部分通用的代碼制成模板,減少代碼工作量,於是就有瞭這篇文章。
如果覺得我這篇文章寫的好的話,能不能給我 點個贊 ,評論 、收藏 一條龍(☆▽☆)。如果要點個 關註 的話也不是不可以。
如果 有什麼問題,還 請各位大佬提出,不勝感激。
爬蟲代碼
我的爬蟲代碼都是使用的 自己 寫的 多線程。
因為我的代碼能力很差,所以如果代碼有哪裡讓各位大佬倍感不適,請及時在評論區 指出,謝謝各位大佬。
我的代碼如下:
#!/usr/bin/python3 # -*- coding=utf-8 -*- # @Author : lhys # @FileName: proxy_tool.py import requests import threading timeout = 300 lock = threading.Lock() # 請求頭用自己的 headers = { '': '' } class MyProxy: def __init__(self, proxy_api='', proxy_server='', max_use=5000, try_count=5): if not (proxy_api or proxy_server): raise TypeError('Proxy_api and proxy_server cannot be empty at the same time.') self.proxies = None if not proxy_server else { 'http': proxy_server, 'https': proxy_server } # 代理API self.proxy_api = proxy_api # 代理 IP 最大使用次數 self.max_use = max_use # 測試代理 IP 次數,超過次數即認為代理 IP 不可用 self.try_count = try_count # 是否爬蟲請求出錯,如果出錯,直接更換 IP self.flag = 0 # 代理 IP 剩餘生存時間 self.proxy_ttl = 0 # 各種鎖 self.lock = threading.Lock() self.ttl_lock = threading.Lock() self.flag_lock = threading.Lock() def set_flag(self): self.flag_lock.acquire() self.flag = 1 self.flag_lock.release() def get_flag(self): self.flag_lock.acquire() flag = self.flag self.flag_lock.release() return flag def decrease_ttl(self): self.ttl_lock.acquire() self.proxy_ttl -= 1 self.ttl_lock.release() def get_ttl(self): self.ttl_lock.acquire() ttl = self.proxy_ttl self.ttl_lock.release() return ttl def set_ttl(self): self.ttl_lock.acquire() self.proxy_ttl = self.max_use self.ttl_lock.release() def get_proxy(self): self.lock.acquire() proxy = self.proxies self.lock.release() return proxy def set_proxy(self): if self.proxy_ttl > 0 and self.flag == 0: return old = self.proxies if self.flag == 1: for try_count in range(self.try_count): try: requests.get('https://www.baidu.com', headers=headers, proxies=old, timeout=timeout) print(f'Test proxy {old} successfully.') return except requests.exceptions.ProxyError or requests.exceptions.ConnectionError or requests.exceptions.ConnectTimeout: print(f'Test proxy {old} failed.') break except Exception as e: print(e) if not self.proxy_api: raise ValueError('代理 IP 不可用,且代理 IP API未設置。') while True: res = requests.get(self.proxy_api) # 這一部分按照自己的代理 IP 文檔來,僅供參考 try: if res.json()["ERRORCODE"] == "0": ip, port = res.json()["RESULT"][0]['ip'], res.json()["RESULT"][0]['port'] self.lock.acquire() self.proxies = { 'http': 'http://%s:%s' % (ip, port), 'https': 'http://%s:%s' % (ip, port) } print(f'Set proxy: {ip}:{port}.') self.flag = 0 self.lock.release() self.set_ttl() return else: print(f'Set proxy failed.') except Exception as e: print(e) Proxy = MyProxy() def request_by_proxy(url, use_proxy=True): while True: try: # 使用代理 if use_proxy: proxy_ttl = Proxy.get_ttl() print(proxy_ttl) # 如果 超過最大使用次數 或者 請求出現錯誤,重新設置 IP if proxy_ttl <= 0 or Proxy.get_flag(): Proxy.set_proxy() print(Proxy.get_ttl()) proxy = Proxy.get_proxy() lock.acquire() res = requests.get(url, headers=headers, proxies=proxy, timeout=timeout) lock.release() Proxy.decrease_ttl() return res else: res = requests.get(url, headers=headers, timeout=timeout) return res except requests.exceptions.ProxyError as pe: if use_proxy: lock.release() print(f'Proxy {Proxy.proxies} is not available, reason: {pe}.') Proxy.set_flag() except requests.exceptions.Timeout as t: if use_proxy: lock.release() print(f'Time out, reason: {t}.') Proxy.set_flag() except Exception as e: if use_proxy: lock.release() print(e)
#!/usr/bin/python3 # -*- coding=utf-8 -*- # @Author : lhys # @FileName: spider.py import time import threading from multiprocessing import Queue from proxy_tool import request_by_proxy threshold = 30 queue = Queue() class Spider(threading.Thread): def __init__(self, use_proxy=True): super(Spider, self).__init__() self.use_proxy = use_proxy def get_data(self, url): try: res = request_by_proxy(url, self.use_proxy) # 響應處理 pass except Exception as e: print(e) return def run(self): while True: # 如果隊列空瞭,等待一會兒。 # 過瞭指定的時間後,如果隊列出現數據,就繼續爬 # 如果隊列還是空的,停止線程 if queue.empty(): time.sleep(threshold) if not queue.empty(): url = queue.get() self.get_data(url) time.sleep(threshold) else: print('Queue is empty.') return
在 Pycharm 中設置代碼模板
打開 File -> settings -> Editor -> Live Templates,點擊 Python,如下圖所示:
可以看到,已經有一些自動補全的模板瞭,以 TCP_Client 為例,如下圖所示:
可以看到 Pycharm 有提示。
使用 TCP_Client。
如果我們要制作自己的代碼模板,就點擊 + ,如下圖所示:
點擊 Live Template 。(第二個是 創建模板組,目前我們不需要,直接在 Python 模板組下創建就好瞭)。
其中:
- Abbreviation 譯為 縮寫,就是 自動補全框中出現的名字 。
- Description 譯為 描述,就是 對這個代碼模板進行描述,可空。
- Template text 譯為 模板文本,就是 要設置的模板代碼。
然後在下方 define 處選擇在哪個模板組中定義,可 根據自己需求或喜好選擇模板組 ,我這裡選擇 Python ,點擊 ok 。
測試一下:
成功完成任務!!!
到此這篇關於如何在Pycharm中制作自己的爬蟲代碼模板的文章就介紹到這瞭,更多相關Pycharm制作爬蟲代碼模板內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!