利用python爬取城市公交站點

Posted on 2021-12-09 by WalkonNet

頁面分析

https://guiyang.8684.cn/line1

爬蟲

我們利用requests請求，利用BeautifulSoup來解析，獲取我們的站點數據。得到我們的公交站點以後，我們利用高德api來獲取站點的經緯度坐標，利用pandas解析json文件。接下來開幹，我推薦使用面向對象的方法來寫代碼。

import requests
import json
from bs4 import BeautifulSoup
import pandas as pd


class bus_stop:
 ## 定義一個類，用來獲取每趟公交的站點名稱和經緯度
 def __init__(self):
 self.url = 'https://guiyang.8684.cn/line{}'
 self.starnum = []
 for start_num in range(1, 17):
 self.starnum.append(start_num)
 self.payload = {}
 self.headers = {
 'Cookie': 'JSESSIONID=48304F9E8D55A9F2F8ACC14B7EC5A02D'}
 ## 調用高德api獲取公交線路的經緯度
 ### 這個key大傢可以自己去申請
 def get_location(self, line):
 url_api = 'https://restapi.amap.com/v3/bus/linename?s=rsv3&extensions=all&key=559bdffe35eec8c8f4dae959451d705c&output=json&city=貴陽&offset=2&keywords={}&platform=JS'.format(
 line)
 res = requests.get(url_api).text
 # print(res) 可以用於檢驗傳回的信息裡面是否有自己需要的數據
 rt = json.loads(res)
 dicts = rt['buslines'][0]
 # 返回df對象
 df = pd.DataFrame.from_dict([dicts])
 return df
 ## 獲取每趟公交的站點名稱
 def get_line(self):
 for start in self.starnum:
 start = str(start)
 # 構造url
 url = self.url.format(start)
 res = requests.request(
 "GET", url, headers=self.headers, data=self.payload)
 soup = BeautifulSoup(res.text, "lxml")
 div = soup.find('div', class_='list clearfix')
 lists = div.find_all('a')
 for item in lists:
 line = item.text  # 獲取a標簽下的公交線路 
 lines.append(line)
 return lines


if __name__ == '__main__':
 bus_stop = bus_stop()
 stop_df = pd.DataFrame([])
 lines = []
 bus_stop.get_line()
 # 輸出路線
 print('一共有{}條公交路線'.format(len(lines)))
 print(lines)
 # 異常處理
 error_lines = []
 for line in lines:
 try:
 df = bus_stop.get_location(line)
 stop_df = pd.concat([stop_df, df], axis=0)
 except:
 error_lines.append(line)

 # 輸出異常的路線 
 print('異常路線有{}條公交路線'.format(len(error_lines))) 
 print(error_lines)

 # 輸出文件大小 
 print(stop_df.shape)
 stop_df.to_csv('bus_stop.csv', encoding='gbk', index=False)

數據清洗

我們先來看效果，我需要對busstops列進行清洗。我們的總體思路，分列->逆透視->分列。我會接受兩種方法，一是Excel PQ，二是python。

Excel PQ 數據清洗

這一方法完全利用PQ，純界面操作，問題不大，所以我們看看流程就可以瞭，核心步驟就是和上面一樣的。

python數據清洗

## 我們需要處理的busstops列和ID列
data = stop_df[['id','busstops']]
data.head()

## 字典或者列表分列
df_pol = data.copy()
### 設置索引列
df_pol.set_index('id',inplace=True)
df_pol.head()

## 逆透視
### 釋放索引
df_pol.reset_index(inplace=True)
### 逆透視操作
df_pol_ps = df_pol.melt(id_vars=['id'], value_name='busstops')
df_pol_ps.head()

## 刪除空行
df_pol_ps.dropna(inplace=True,axis=0)
df_pol_ps.shape

## 分列
### 設置line_id
df_parse['line_id'] = df_pol_ps['id']
df_parse = df_pol_ps['busstops'].apply(pd.Series)
df_parse

我這裡補充一下，我們一般還要對location列進行分列，把Long，lat分列出來，但是我們這裡就不做瞭，都是重復勞動，而且我用的pq清洗，快很多。

## 寫入文件
df_parse.to_excel('貴陽市公交站點分佈.xlsx', index=False)</pre>

QGIS坐標糾偏

QGIS基礎操作，我就不說瞭，順便說一下QGIS對csv格式支持較好，我推薦我們導入QGIS的文件為csv格式的文件。

導入csv文件

坐標糾偏

以前說瞭很多，我們高德地圖上的坐標是GCJ02坐標，我們需要轉成WGS 1984坐標，我們在QGIS裡面需要借助GeoHey插件。

看一下這個坐標糾偏，區別還是很大。

總結

總的來說，我們還是推薦使用使用面向對象的方法來寫代碼，還有就是異常處理必不可少。我這次面對的問題是某些公交路線，高德API裡面沒有，這樣就會異常，所以這次的異常處理不可缺少。從數據處理的角度來看，這次從速度和方便來說，pq完勝python，我推薦大傢數據清洗就用pq，有些時候，我都會給出多種處理方法，pq看起來復雜，但是其實pq是最簡單的，總之，我高度推薦pq進行數據清洗。還有一點，python裡面的索引比較麻煩，這次我要保證和bus_stop_id和line_id，這樣公交站點表和公交路線表才可以連接，其實這就是SQL裡面的外鍵連接，所以我在python數據清洗的時候，涉及到大量的索引操作，在pq裡面沒有這麼復雜。說到這個索引，感謝我的SQL老師，當年她講解SQL裡面的索引，約束，仿佛就在昨天。高德的這個key大傢可以自己去申請，這個key可能有數量的限制。我接下來會把代碼上傳到Gitee，這個代碼的管理還是很重要的，自己也學習一下代碼的管理。接下來，感謝小學妹給的這個小項目，也感謝崔工對我的鼓勵，其實，我最近很忙，不太想寫文章的。最後，感謝認識的一個小學妹，她真的蠻優秀的，最後希望大傢2021年最後這一個月萬事如意，開開心心，也希望我們都有一個光明的未來。還有一個坑，我建議大傢在簡書上寫文章，真的本地的話，圖片上傳有問題。

以上就是利用python爬取城市公交站點的詳細內容，更多關於python爬取城市公交站點的資料請關註WalkonNet其它相關文章！

利用python爬取城市公交站點

目錄

頁面分析

爬蟲

數據清洗

Excel PQ 數據清洗

python數據清洗

QGIS坐標糾偏

導入csv文件

坐標糾偏

總結

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

頁面分析

爬蟲

數據清洗

Excel PQ 數據清洗

python數據清洗

QGIS坐標糾偏

導入csv文件

坐標糾偏

總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆