Python實現城市公交網絡分析與可視化

一、數據查看和預處理

數據獲取自高德地圖API,包含瞭天津市公交線路和站點名稱及其經緯度數據。

import pandas as pd

df = pd.read_excel('site_information.xlsx')
df.head()

字段說明:

  • 線路名稱:公交線路的名稱
  • 上下行:0表示上行;1表示下行
  • 站序號:公交線路上行或下行依次經過站的序號
  • 站名稱:站點名稱
  • 經度(分):站點的經度
  • 緯度(分):站點的緯度

數據字段少,結構也比較簡單,下面來充分瞭解我們的數據和進行預處理。

總的數據有 30396 條,站名稱缺失瞭 5 條,緯度(分)缺失瞭 1 條,經度(分)缺失瞭 38 條,為瞭處理方便,直接把有缺失值的行刪除。

經緯度數據是7031.982、2348.1016這樣的,需要將其轉換為以度為單位。

df2 = df1.copy()
df2['經度(分)'] = df1['經度(分)'].apply(float) / 60
df2['緯度(分)'] = df1['緯度(分)'].apply(float) / 60
df2.head()

處理後的數據裡,共有 618 條公交線路,4851個站點數據。

重新保存為處理後數據

df2.to_excel("處理後數據.xlsx", index=False)

二、數據分析

分析天津市公交站點的分佈情況

# -*- coding: UTF-8 -*-
"""
@Author  :葉庭雲
@公眾號  :修煉Python
@CSDN    :https://yetingyun.blog.csdn.net/
"""
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import random

df = pd.read_excel("處理後數據.xlsx")
x_data = df['經度(分)']
y_data = df['緯度(分)']
colors = ['#FF0000', '#0000CD', '#00BFFF', '#008000', '#FF1493', '#FFD700', '#FF4500', '#00FA9A', '#191970', '#9932CC']
colors = [random.choice(colors) for i in range(len(x_data))]
mpl.rcParams['font.family'] = 'SimHei'
plt.style.use('ggplot')
# 設置大小
plt.figure(figsize=(12, 6), dpi=200)
# 繪制散點圖  經度  緯度  傳進去   設置 顏色  點的大小
plt.scatter(x_data, y_data, marker="o", s=9., c=colors)

# 添加描述信息 x軸 y軸 標題
plt.xlabel("經度")
plt.ylabel("緯度")
plt.title("天津市公交站點分佈情況")
plt.savefig('經緯度散點圖.png')
plt.show()

結果如下:

通過 matplotlib 繪制散點圖可視化天津市公交站點的分佈情況,容易看出天津市的公交熱點分佈區域。為瞭能更形象地分析公交線路網絡,我們可以將數據可視化在實際地圖上,利用 Pyecharts 的BMap。

# -*- coding: UTF-8 -*-
"""
@Author  :葉庭雲
@公眾號  :修煉Python
@CSDN    :https://yetingyun.blog.csdn.net/
"""
import pandas as pd
from pyecharts.charts import BMap
from pyecharts import options as opts
from pyecharts.globals import CurrentConfig

# 引用本地js資源渲染
CurrentConfig.ONLINE_HOST = 'D:/python/pyecharts-assets-master/assets/'

df = pd.read_excel('處理後數據.xlsx', encoding='utf-8')
df.drop_duplicates(subset='站名稱', inplace=True)
longitude = list(df['經度(分)'])
latitude = list(df['緯度(分)'])
datas = []
a = []
for i, j in zip(longitude, latitude):
    a.append([i, j])

datas.append(a)
print(datas)

BAIDU_MAP_AK = "改成你的百度地圖AK"

c = (
    BMap(init_opts=opts.InitOpts(width="1200px", height="800px"))
    .add_schema(
        baidu_ak=BAIDU_MAP_AK,     # 申請的BAIDU_MAP_AK
        center=[117.20, 39.13],    # 天津市經緯度中心
        zoom=10,
        is_roam=True,
    )
    .add(
        "",
        type_="lines",
        is_polyline=True,
        data_pair=datas,
        linestyle_opts=opts.LineStyleOpts(opacity=0.2, width=0.5, color='red'),
        # 如果不是最新版本的話可以註釋下面的參數(效果差距不大)
        progressive=200,
        progressive_threshold=500,
    )
)

c.render('公交網絡地圖.html')

結果如下:

在地圖上可以看到,和平區、南開區公交線路網絡密集,交通便利。

公交線路網絡中 i 節點代表第 i 條線路,其中節點 i 的度定義為與線路 i 可以經過換乘能夠到達的線路的數目,線路網絡的度大小反映瞭該條公交線路與其他線路的連通程度,構建算法分析公交線路網絡度的分佈。

# -*- coding: UTF-8 -*-
"""
@Author  :葉庭雲
@公眾號  :修煉Python
@CSDN    :https://yetingyun.blog.csdn.net/
"""
import xlrd
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib as mpl


df = pd.read_excel("site_information.xlsx")
# 用pandas的操作去重   得到每條線路的名稱
loc = df['線路名稱'].unique()
# 得到每一條線路名稱的列表
line_list = list(loc)
print(line_list)

# 打開Excel表格
data = xlrd.open_workbook("site_information.xlsx")
# print(data)   # <xlrd.book.Book object at 0x000001F1111C38D0> 在內存中
# 獲取特定Sheet  索引為0  也就是第一個表
table = data.sheets()[0]  # 從零開始
# 每條線路對應有哪些站點  字典推導式
site_dic = {k: [] for k in line_list}
site_list = []
for i in range(1, table.nrows):
    # 每一行的數據   返回的是一個列表
    x = table.row_values(i)
    if x[1] == "0":
        # 上行   站點數據  每條線路對應有哪些站點 添加進列表
        site_dic[x[0]].append(x[3])
        site_list.append(x[3])
    else:
        continue
# print(len(site_dic))   # 618條線路
# print(len(site_list))  # 15248條站點數據
print(f"公交網絡共有 {len(line_list)} 條線路")   # 618條線路

# 先初始化一個統計每個節點的度的列表  與線路名稱列表裡的索引一一對應
node_count = [m * 0 for m in range(len(line_list))]
# 以每條線路為一個節點  線路名稱為鍵      值為一個列表  裡面包含每條路線上行經過的所有站點
sites = [site for site in site_dic.values()]
# print(sites)
for j in range(len(sites)):  # 類似冒泡法排序  比較多少趟
    for k in range(j, len(sites) - 1):  # 每趟比較後  往後推一個  直到比較完  和防止越界
        if len(sites[j]) > len(sites[k + 1]):
            for x in sites[j]:
                if x in sites[j] and x in sites[k + 1]:   # 隻要這兩條線路有公共站點  節點度數加1
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1
                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束
        else:
            for x in sites[k + 1]:
                if x in sites[j] and x in sites[k + 1]:   # 隻要這兩條線路有公共站點  節點度數加1
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1
                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束
# print(node_count)
# 節點編號 與 節點的度數索引對應
node_number = [y for y in range(len(node_count))]
# 線性網絡度的最大值   175
print(f"線路網絡的度的最大值為:{max(node_count)}")
print(f"線路網絡的度的最小值為:{min(node_count)}")
print(f"線路網絡的度的平均值為:{sum(node_count) / len(node_count)}")
# 設置大小  圖的像素
# 設置字體   matplotlib 不支持顯示中文  自己本地設置
plt.figure(figsize=(10, 6), dpi=150)
mpl.rcParams['font.family'] = 'SimHei'

# 繪制每個節點度的分佈
plt.bar(node_number, node_count, color="purple")

# 添加描述信息
plt.xlabel("節點編號n")
plt.ylabel("節點的度數K")
plt.title("線路網絡中各節點的度的大小分佈", fontsize=15)
plt.savefig("線路網絡中各節點的度的大小.png")
plt.show()

結果如下:

公交網絡共有 618 條線路

線路網絡的度的最大值為:175

線路網絡的度的最小值為:0

線路網絡的度的平均值為:55.41423948220065

import xlrd
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib as mpl
import collections

df = pd.read_excel("site_information.xlsx")
# 用pandas的操作去重   得到每條線路的名稱
loc = df['線路名稱'].unique()
# 得到每一條線路名稱的列表
line_list = list(loc)
print(line_list)

# 打開Excel表格
data = xlrd.open_workbook("site_information.xlsx")
# print(data)   # <xlrd.book.Book object at 0x000001F1111C38D0> 在內存中
# 獲取特定Sheet  索引為0  也就是第一個表
table = data.sheets()[0]  # 從零開始
# 每條線路對應有哪些站點  字典推導式
site_dic = {k: [] for k in line_list}
site_list = []
for i in range(1, table.nrows):
    # 每一行的數據   返回的是一個列表
    x = table.row_values(i)
    if x[1] == "0":
        # 上行   站點數據  每條線路對應有哪些站點 添加進列表
        site_dic[x[0]].append(x[3])
        site_list.append(x[3])
    else:
        continue
# print(len(site_dic))   # 618條線路
# print(len(site_list))  # 15248條站點數據
# 先初始化一個統計每個節點的度的列表  與線路名稱列表裡的索引一一對應
node_count = [m * 0 for m in range(len(line_list))]
# 以每條線路為一個節點  線路名稱為鍵      值為一個列表  裡面包含每條路線上行經過的所有站點
sites = [site for site in site_dic.values()]
# print(sites)
for j in range(len(sites)):  # 類似冒泡法排序  比較多少趟
    for k in range(j, len(sites) - 1):  # 每趟比較後  往後推一個  直到比較完  和防止越界
        if len(sites[j]) > len(sites[k + 1]):
            for x in sites[j]:
                if x in sites[j] and x in sites[k + 1]:   # 隻要這兩條線路有公共站點  節點度數加1
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1
                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束
        else:
            for x in sites[k + 1]:
                if x in sites[j] and x in sites[k + 1]:   # 隻要這兩條線路有公共站點  節點度數加1
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1
                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束
# print(node_count)
# 節點編號 與 節點的度數索引對應
node_number = [y for y in range(len(node_count))]
# 線性網絡度的最大值   175
# print(max(node_count))

# 設置大小  圖的像素
# 設置字體   matplotlib 不支持顯示中文  自己本地設置
plt.figure(figsize=(10, 6), dpi=150)
mpl.rcParams['font.family'] = 'SimHei'

# 分析節點的度K的概率分佈
# 統計節點的度為K的 分別有多少個
node_count = collections.Counter(node_count)
node_count = node_count.most_common()
# 點
node_dic = {_k: _v for _k, _v in node_count}
# 按鍵從小到大排序   得到一個列表  節點的度
sort_node = sorted(node_dic)
# 按順序得到鍵對應的值   即有相同節點的度的個數
sort_num = [node_dic[q] for q in sort_node]
# 概率分佈中度平均值  總的度數加起來  / 個數
# print(sum(sort_node)/len(sort_node))
# 概率分佈中最大的度值   也就個數最多那個
print(f"概率分佈中概率最大的度值為:{max(sort_num)}")

probability = [s1 / sum(sort_num) for s1 in sort_num]   # 概率分佈
print(probability)

# 天津市公交線路節點概率分佈圖像
plt.bar(sort_node, probability, color="red")
# 添加描述信息
plt.xlabel("節點的度K")
plt.ylabel("節點度為K的概率P(K)")
plt.title("線路網絡中節點度的概率分佈", fontsize=15)

plt.savefig("線路網絡中節點度的概率分佈.png")
plt.show()

結果如下:

概率分佈中概率最大的度值為:16

天津市公交線路網絡的度分佈如上圖所示,本文收集的天津市線路網絡共有 618 條線路組成,線路網絡的度的最大值為175。概率分佈中概率最大的度值為16,度平均值為55.41,表明天津市公交網絡提供的換乘機會較多,使得可達性較高。其中概率較大的度值大多集中在 7~26 之間。使得節點強度分佈相對來說不夠均勻,造成天津市很多路段公交線路較少,少數路段經過線路過於密集,造成資源的浪費。

聚類系數是研究節點鄰居之間的連接緊密程度,因此不必考慮邊的方向。對於有向圖,將其當成無向圖來處理。網絡聚類系數大,表明網絡中節點與其附近節點之間的連接緊密度程度高,即與實際站點之間的公交線路連接密集。計算得到天津公交復雜網絡的聚類系數為0.091,相對其他城市較低。

根據公式:

同規模的隨機網絡聚集系數約為0.00044,進一步體現瞭網絡的小世界特性。

import xlrd
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib as mpl


# 讀取數據
df = pd.read_excel("site_information.xlsx")
# 用pandas的操作去重   得到每條線路的名稱
loc = df['線路名稱'].drop_duplicates()
# 得到每一條線路名稱的列表  按照Excel表裡以次下去的順序
line_list = list(loc)
# print(line_list)

# 打開Excel表格
data = xlrd.open_workbook("site_information.xlsx")
# print(data)   # <xlrd.book.Book object at 0x000001F1111C38D0> 在內存中
# 獲取特定Sheet  索引為0  也就是第一個表
table = data.sheets()[0]  # 從零開始
# 每條線路對應有哪些站點  字典推導式
site_dic = {k: [] for k in line_list}
site_list = []
for i in range(1, table.nrows):
    # 每一行的數據   返回的是一個列表
    x = table.row_values(i)
    if x[1] == "0":
        # 隻取上行站點數據  每條線路對應有哪些站點 添加進列表
        site_dic[x[0]].append(x[3])
        site_list.append(x[3])
    else:
        continue
# print(len(site_dic))   # 618條線路
# print(len(site_list))  # 15248條站點數據
# 先初始化一個統計每個節點的度的列表  與線路名稱列表裡的索引一一對應
node_count = [m * 0 for m in range(len(line_list))]
# 以每條線路為一個節點  線路名稱為鍵      值為一個列表  裡面包含每條路線上行經過的所有站點
sites = [site for site in site_dic.values()]
# print(sites)
# 統計各節點的度
for j in range(len(sites) - 1):  # 類似冒泡法排序  比較多少趟
    for k in range(j, len(sites) - 1):  # 每趟比較後  往後推一個  直到比較完  和防止越界
        if len(sites[j]) > len(sites[k + 1]):
            for x in sites[j]:
                if x in sites[j] and x in sites[k + 1]:   # 隻要這兩條線路有公共站點  節點度數加1
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1
                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束
        else:
            for x in sites[k + 1]:
                if x in sites[j] and x in sites[k + 1]:   # 隻要這兩條線路有公共站點  節點度數加1
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1
                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束

# 找到該節點的鄰居節點  鄰居節點間實際的邊數
Ei = []
# 對每條線路進行找鄰接節點  並統計其鄰接節點點實際的邊數
for a in range(len(sites)):
    neighbor = []
    if node_count[a] == 0:
        Ei.append(0)
        continue
    if node_count[a] == 1:
        Ei.append(0)
        continue
    for b in range(len(sites)):
        if a == b:    # 自身  不比
            continue
        if len(sites[a]) > len(sites[b]):   # 從站點多的線路裡選取站點   看是否有公共站點
            for x in sites[a]:
                if x in sites[a] and x in sites[b]:  # 找到鄰居節點
                    neighbor.append(sites[b])
                    break
        else:
            for x in sites[b]:
                if x in sites[a] and x in sites[b]:  # 找到鄰居節點
                    neighbor.append(sites[b])
                    break
    # 在鄰居節點中判斷這些節點的實際邊數  又類似前面的方法  判斷兩兩是否相連
    count = 0
    for c in range(len(neighbor) - 1):
        for d in range(c, len(neighbor) - 1):  # 每趟比較後  往後推一個  直到比較完  和防止越界
            try:
                if len(sites[c]) > len(sites[d + 1]):
                    for y in sites[c]:
                        if y in sites[c] and y in sites[d + 1]:  # 鄰居節點這兩個也相連
                            count += 1
                            break
                        else:
                            continue
                else:
                    for y in sites[d + 1]:
                        if y in sites[c] and y in sites[d + 1]:  # 鄰居節點這兩個也相連
                            count += 1
                            break
                        else:
                            continue
            except IndexError:
                break
    Ei.append(count)

# 每個節點的鄰居節點間實際相連的邊數
# print(Ei)
# 節點編號 與 節點的度數索引對應
node_number = [y for y in range(len(node_count))]

# 設置字體   matplotlib 不支持顯示中文  自己本地設置
mpl.rcParams['font.family'] = 'SimHei'
# 設置大小  圖的像素
plt.figure(figsize=(10, 6), dpi=150)
# 公交線路網絡的聚類系數分佈圖像   相鄰節點的連通程度
Ci = []
for m in range(len(node_number)):
    if node_count[m] == 0:
        Ci.append(0)
    elif node_count[m] == 1:
        Ci.append(0)

    else:  # 2 * 該節點鄰居節點實際連接邊數 / 最大邊數
        Ci.append(2 * Ei[m] / (node_count[m] * (node_count[m] - 1)))

# 各節點鄰居節點的連通程度 計算平均聚類系數
print("天津市公交線路網絡平均聚類系數為:{:.4f}".format(sum(Ci) / len(Ci)))
plt.bar(node_number, Ci, color="blue")

# 添加描述信息
plt.xlabel("節點編號n")
plt.ylabel("節點的聚類系數")
plt.title("線路網絡中各節點的聚類系數分佈", fontsize=15)

plt.savefig("聚類系數分佈.png")
plt.show()

結果如下:

天津市公交線路網絡平均聚類系數為:0.0906

以上就是Python實現城市公交網絡分析與可視化的詳細內容,更多關於Python城市公交網絡分析 可視化的資料請關註WalkonNet其它相關文章!

推薦閱讀: