Python爬取門戶論壇評論淺談Python未來發展方向

Python爬取新浪微博評論

  • 環境: Python3 + windows。
  • 開發工具:Anaconda + Jupyter / VS Code。
  • 學習效果:

1.認識爬蟲 / Robots協議

2.瞭解瀏覽器開發者工具

3.動態加載頁面的處理

4.手機客戶端頁面的數據采集

Robots.txt 協議

Robots協議,也稱為爬蟲協議

網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots是一個協議,而不是一個命令。Robots.txt文件是一個文本文件,是放置在網站根目錄下,使用任何一個常見的文本編輯器,就可以創建和編輯它。Robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件,其主要的作用就是告訴蜘蛛程序在服務器上什麼文件是可以被查看的。Robots協議是國際互聯網界通行的道德規范。約定俗成。

Python爬取新浪微博評論

Python代碼

  • 導入模塊

image.png

  • 反爬

image.png

image.png

Python發展方向

數據分析/數據挖掘

關聯分析【啤酒與尿佈】,聚類分 ,判別分析 ,隨機森林 .

人工智能

一種能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理等。例如AlphaGo , AlphaGo Zero.

Python運維

不會開發的運維終將被淘汰!!!

WEB開發

開發網站,例如豆瓣網。側重於實戰!!!

Python爬蟲

采集網絡數據,為數據分析或大數據等提供支持,大型的比如Google,百度等。側重於實戰!!!

以上就是實現Python爬取門戶論壇評論過程的詳細內容,更多關於Python爬取門戶論壇評論的資料請關註WalkonNet其它相關文章!

推薦閱讀: