Python實現socket庫網絡通信套接字

Socket 套接字:通訊端點 簡介

socket起源於Unix,而Unix/Linux基本哲學之一就是“一切皆文件”,對於文件用【打開】【讀寫】【關閉】模式來操作。socket就是該模式的一個實現,socket即是一種特殊的文件,一些socket函數就是對其進行的操作(讀/寫IO、打開、關閉)。

Socket 是任何一種計算機網絡通訊中最基礎的內容。Socket通訊一般用戶C/S結構系統的網絡通訊。

Socket 網絡通訊是基於TCP(傳輸控制協議)或UDP(用戶數據報協議)兩種協議通訊,所以有 面向連接(TCP )與無連接(UDP ) 兩種通訊方式。

Python 要創建TCP 套接字就得在創建的時候,指定套接字類型為SOCK_STREAM,它使用 TCP/IP通訊協議。

Socket網絡通信套接字

socket庫提供瞭一個底層C API,可以使用BSD套接字接口實現網絡通信。它包括socket類,用於處理具體的數據通道,還包括用來完成網絡相關任務的函數,如將一個服務器名轉換為一個地址以及格式化數據以便在網絡上發送。

什麼是套接字?

套接字是程序在本地或者通過互聯網來回傳遞數據時所用通信通道的一個端點。

套接字有2個主要屬性用於控制如何發送數據:地址簇(address family)控制所用的OSI網絡層協議;套接字類型(socket type)控制傳輸層協議。(參考《計算機網絡》7層協議)

地址簇

Python支持3個地址簇:

  • AF_INET:用於IPv4尋址。IPv4長度為4個字節,通常表示為4個數的序列,每個字節對應一個數,用點號分割(如121.63.0.243)。這些值通常被稱為IP地址。目前IPv4依舊還是主流。
  • AF_INET6:用於IPv6尋址。目前IPv6已經小范圍應用,它支持128位地址和通信流調整,還支持IPv4不支持的一些路由特性。
  • AF_UNIX:用於UNIX域套接字(UDS)的地址簇,這是一種POSIX兼容系統上的進程間通信協議。UDS的實現通常允許操作系統直接從進程向進程間傳遞數據,而不用通過網絡棧。這比使用AF_INET更高效,但是由於要用到文件系統作為尋址的命令空間,所以UDS僅限於同一個系統上的進程。

套接字類型

套接字類型有兩種:

  • SOCK_DGRAM:面向消息的數據報傳輸,數據報套接字通常與UDP關聯,即用戶數據報協議。這些套接字能提供不可靠的消息傳送。
  • SOCK_STREAM:面向流的傳輸,與TCP相關,即傳輸控制協議。它們可以在客戶和服務器之間提供字節流,通過超時管理,重傳和其他特性確保提供消息傳送或失敗通知。

大多數應用協議(如HTTP)都建立在TCP基礎上,因為這樣更容易創建自動處理消息排序和傳送的復雜應用。

UDP通常用於順序不太重要的協議(如DNS交換)。UDP與TCP都支持IPv4與IPv6。

套接字的簡單應用

gethostbyname_ex()與gethostbyname()

socket庫包含一些與網絡上的域名服務交互的函數,比如解析域名為IP地址可以用到gethostbyname_ex(),示例如下:

import socket

host_str = [
    'www.baidu.com',
    'cloud.tencent.com',
    'www.csdn.net'
]
for host in host_str:
    try:
        name, aliases, addresses = socket.gethostbyname_ex(host)
        print(host)
        print("主機名:", name)
        print("所有別名:", aliases)
        print("所有可用IP地址:", addresses)
    except socket.error as msg:
        print(host, msg)

運行之後,效果如下:

別名

gethostbyname_ex:該函數返回3個參數,主機名,別名,以及解析能跳轉到當前主機的IP地址。

gethostbyname:類似的函數,隻返回當前主機的IP地址。

getservbyname()與getservbyport()

socket庫提供getservbyname()函數用於查找網絡服務的端口號和標準名,示例如下所示:

import socket
from urllib.parse import urlparse

url_str = [
    'https://www.baidu.com',
    'https://www.csdn.net',
    'smtp://smtp.qq.com',
]
for url in url_str:
    try:
        parsed_url = urlparse(url)
        port = socket.getservbyname(parsed_url.scheme)
        print(url)
        print("端口號:", port)
    except socket.error as msg:
        print(url, msg)

運行之後,效果如下:

端口號

當然,其實最有用的並不是給定一個鏈接去查詢端口號,而是逆向操作。(因為標準化服務端口號一般都是固定的)

socket庫提供getservbyport()函數用於完成逆向的服務端口查找,示例代碼如下所示:

import socket

url = '{}://smtp.qq.com'.format(socket.getservbyport(25))
print(url)

運行之後,效果如下:

逆向端口號

getprotobyname()

socket庫還可以使用getprotobyname()函數獲取分配給一個傳輸協議的端口號,示例如下:

import socket

#獲取匹配開頭字符串的所有屬性值
def getConstants(prefix):
    return {
        getattr(socket, n): n
        for n in dir(socket)
        if n.startswith(prefix)
    }
ipproto_str = getConstants("IPPROTO_")
for agree in ['tcp', 'udp']:
    num = socket.getprotobyname(agree)
    name = ipproto_str[num]
    print(name, num)

運行之後,效果如下:

示例如上

對於協議碼,在程序定義中一般都是標準化常量,這就是意味著,它們的常量名都有一定的規律,而socket協議碼前綴是IPPROTO_。

getaddrinfo(查找服務器地址)

getaddrinfo()函數用於將一個服務的基本地址轉換為一個元組列表,其中包含建立一個連接所需要的全部信息。比如其網絡簇與協議等,示例如下:

import socket

# 獲取匹配開頭字符串的所有屬性值
def getConstants(prefix):
    return {
        getattr(socket, n): n
        for n in dir(socket)
        if n.startswith(prefix)
    }
ipproto_str = getConstants("IPPROTO_")
family_str = getConstants("AF_")
type_str = getConstants("SOCK_")
for response in socket.getaddrinfo('www.csdn.net', 'http', family=socket.AF_INET, type=socket.SOCK_STREAM,
                                   proto=socket.IPPROTO_TCP, flags=socket.AI_CANONNAME):
    family, socktype, ipproto, canonname, sockaddr = response
    print("地址簇:       ", family_str[family])
    print("套接字類型:    ", type_str[socktype])
    print("協議碼:       ", ipproto_str[ipproto])
    print("主機規范名:    ", canonname)
    print("ip地址與端口號:", sockaddr)

運行之後,效果如下:

篩選條件

這裡如果隻用socket.getaddrinfo(‘www.csdn.net’, ‘http’),表示不需要過濾任何連接信息,但大型的網站一般都有幾個IP或者域名跳轉到主頁的。

所以通過後面的參數,可以篩選自己需要的鏈接信息。

其中,最後一個參數socket.AI_CANONNAME表示如果主機有別名,那麼結果中會包含服務器的標準名。所有沒有這個標志,標準名為空。

IP地址的表示方式

如果讀者有C的經驗,那麼肯定知道,通過C語言編寫的套接字程序是使用struct sockaddr結構體,它將IP地址表示為二進制,而不是上面顯示的Python字符串形式。

如果想在Python和C之間轉換IPv4地址,可以使用inet_aton()和inet_ntoa()。示例如下:

import socket
import binascii

ip_list = [
    "192.168.50.1",
    "127.0.0.1"
]
for ip in ip_list:
    packed = socket.inet_aton(ip)
    print("原始字符串ip地址:", ip)
    print("C庫能識別的ip地址", binascii.hexlify(packed))
    print("還原C庫ip地址字符串", socket.inet_ntoa(packed))
    print()

運行之後,效果如下:

效果圖

inet_pton()與inet_ntop()

相信讀者如果在測試上面代碼,那麼輸入上面inet_aton()函數時,一定看到提醒中還有inet_pton()與inet_ntop()函數。

這2個函數既能處理IPv4也能處理IPv6,而inet_aton()和inet_ntoa()隻能處理IPv4。它們的使用方式如下:

import socket
import binascii

ipv6_str = "2001:0db8:3c4d:0015:0000:0000:1a2f:1a2b"
packed = socket.inet_pton(socket.AF_INET6, ipv6_str)
print("原始字符串ip地址:", ipv6_str)
print("C庫能識別的ip地址", binascii.hexlify(packed))
print("還原C庫ip地址字符串", socket.inet_ntop(socket.AF_INET6, packed))
print()

ipv4_str = "192.168.50.1"
packed = socket.inet_pton(socket.AF_INET, ipv4_str)
print("原始字符串ip地址:", ipv4_str)
print("C庫能識別的ip地址", binascii.hexlify(packed))
print("還原C庫ip地址字符串", socket.inet_ntop(socket.AF_INET, packed))
print()

運行之後,效果如下:

IPV6

以上就是Python實現socket庫網絡通信套接字的詳細內容,更多關於Python socket庫的資料請關註WalkonNet其它相關文章!

推薦閱讀: