php性能優化進階不要在for循環中操作DB

前言

如何提高程序運行速度,減輕服務器壓力是服務端開發必須面對的一個問題。

簡單且樸素的原則:不要在for循環中操作DB,包括關系型數據庫和NoSql。

我們應該根據自己的業務場景,在for循環之前批量拿到數據,用盡量少的sql查詢批量查到結果。 在for循環中進行數據的匹配組裝。

上一篇文章 性能優化反思:不要在for循環中操作DB ,被推薦到首頁也收到瞭大傢的互動評論,再接再厲,進階一版。

說明:繼續上一篇文檔的demo整理,不贅述重復代碼瞭,建議大傢先讀上一篇內容。

場景說明

  • 我們允許用戶選擇職業,系統預制瞭一批職業標簽;又開放瞭自定義職業標簽的功能,不限制自定義標簽的次數。允許用戶編輯資料時選擇2個職業標簽。
  • 發現用戶自定義的職業真的五花八門,隨著業務增長,數量級越來越大;比如目前職業標簽是2千個,以後可能有2萬個,甚至20萬個。
  • 這種情況下,我們上一篇提到的在for循環之前批量查詢全量數據,在for循環中用自定義函數匹配,避免在for循環中操作DB的方式命中率太低瞭,造成瞭極大的浪費。
  • 比如:每個列表返回30個用戶信息,每個用戶選擇瞭2個職業標簽,最大標簽數量是60;而我全量查到的職業標簽數量是2千,命中率隻有3%;如果職業標簽達到2萬個,命中率就隻有0.3%瞭。

解題思路

首先,在for循環中不操作DB,這個大原則不變

上述問題的核心是命中率太低,就是全量查瞭很多用不到的數據

解決思路就是隻批量查詢命中的標簽數據:

  • 取到30個用戶在user表中保存的職業id
  • 30個用戶的id去重後重組
  • 在職業表通過whereIn查詢匹配的職業標簽
  • 其他邏輯不變,替換的隻是數據源:之前的數據源是全量數據,優化後的數據源是精準命中的數據。

思路清晰之後,開始coding

核心代碼示例

為瞭行文緊湊,代碼段中省略瞭和文章無關的代碼,用豎著的三個.省略。

核心代碼:抽取 renderUserInfo ,統一輸出用戶信息,這個函數在for循環中調用,獲得數據源在for循環之前。

<?php
namespace App\Render;
.
.
.
class CommonRender extends BaseRender
{
    public static function renderUserinfo($data, $hobbyInfo = [],$professionInfo = [])
    {
        $hobbyInfo = !empty($hobbyInfo) ? $hobbyInfo : HobbyInfo::getAllInfo();
        //特殊處理,因為職業用戶可以自定義 數字一直增長 不全量查數據;$professionInfo為空時不是批量查詢,隻查單條記錄
        $professionInfo = !empty($professionInfo) ? $professionInfo : (isset($data['profession']) ? ProfessionInfo::getByIds($data['profession']) : []);
        if (!is_array($data)) {
            return [];
        }
        $ret = [
            .
            .
            .
//優化之前
//          'hobby' => !isset($data['hobby']) ? [] : HobbyInfo::getByIds($data['hobby']),
//          'profession' => !isset($data['profession']) ? [] : ProfessionInfo::getByIds($data['profession']),
//優化之後
            'hobby' => !isset($data['hobby']) ? [] : self::_renderHobby($data['hobby'], $hobbyInfo),
            'profession' => !isset($data['profession']) ? [] : self::_renderProfession($data['profession'], $professionInfo),
            .
            .
            .
        return $ret;
    }
}

isset() 判斷,避免傳入的數據不存在,提示數組越界。

我還整理瞭一篇 如何避免數組下標越界 ,有興趣可以閱讀一下。

protected static function _renderProfession($userProfession, $professionInfo)
{
    $ret = [];
    if ($userProfession) {
        $userProfessionIds = explode(',', $userProfession);
        foreach ($userProfessionIds as $key => $userProfessionId) {
            if (isset($professionInfo[$userProfessionId])) {
                $ret[$key] = $professionInfo[$userProfessionId];
            }
        }
    }
    return $ret;
}

調用 commonRender() 的代碼,即展示數據源是怎麼來的。

public static function getBatchUserIntro($userid, $userList)
{
    $retData = [];
    if (empty($userList)) {
        return $retData;
    }
    .
    .
    .
    $hobbyInfo = HobbyInfo::getAllInfo();
    //按需批量查職業,不全量查詢職業
    $professionIds = array_column($batchUserInfo, 'profession');
    $professionIds = implode(',', $professionIds);
    $professionIds = array_unique(explode(',', $professionIds));
    $professionInfo = ProfessionInfo::batchGetByIds($professionIds);
    foreach ($batchUserInfo as $item) {
        $retData[$item['userid']] = CommonRender::renderUserinfo($item, $hobbyInfo, $professionInfo, $expectInfo);
    }
    return $retData;
}

封裝的工具方法,通過id數組批量獲得數據,做瞭特殊判斷,兼容值為空的情況。

public static function batchGetByIds($ids = [])
{
    //兼容職業為空的情況
    foreach ($ids as $key => $id) {
        if (empty($id)) {
            unset($ids[$key]);
        }
    }
    if (empty($ids)) {
        return [];
    }
    return self::query()->selectRaw('id,name,pid')
        ->whereIn('id', $ids)
        ->get()
        ->keyBy('id')
        ->toArray();
}

核心代碼就是上述4部分

性能對比

以此舉例:每次列表返回30個用戶信息,每個用戶選擇瞭2個職業標簽,最大標簽數量是60;

優化之前:全量查到的職業標簽數量為2千,命中率隻有3%;如果職業標簽達到2萬個,命中率就隻有0.3%瞭。

優化之後:全量查到的職業標簽數量為2千,命中率為100%;如果職業標簽達到2萬個,命中率仍然為100%。

反思總結

程序設計一定要結合業務場景,沒有絕對正確的程序設計;

隨著業務增長原本穩健的程序設計也可能遇到問題,技術人必須能和業務一起成長。

更多關於php性能優化for循環DB操作的資料請關註WalkonNet其它相關文章!

推薦閱讀: