python編程項目中線上問題排查與解決

文 | 極光

來源:Python 技術「ID: pythonall」

最近開發中遇到個小問題,因為業務上的設計存在問題,導致數據庫表總是被鎖,而且是不定期的鎖定,導致服務器運行異常,最後經過排查原因是多線程同時更新同一表中同一條記錄導致問題。今天就來跟大傢說說該如何避免這種問題。

問題描述

最近因為公司業務需要,產品設計瞭一套業務系統,據說會有很多內部和外部人員使用,拿到系統說明我們研發部門拼命加班趕時間,經歷瞭兩個月的後終於把系統上線運行。

剛開始用的人少,並沒有出現什麼問題,感覺系統還是很穩定,隨著後來用的人越來越多,系統就開始出現一些莫名其妙的問題,其中就有某些業務信息在更新的時候總是報錯,查日志就發現是表記錄被鎖定導致更新失敗。

找到錯誤問題後我們就開始一遍遍的翻日志,各種分析查找到底是什麼原因導致瞭表記錄被鎖。最後發現這個表的狀態字段,存在多個接口方法同時更新的情況,而且經常是同時操作的。也就是數據庫中存在多個會話同時操作同一表中同一行記錄,從而導致表記錄被鎖。

問題分析

那定位到問題,要如何解決呢?這裡我們先瞭解兩個名詞:

悲觀鎖(Pessimistic Lock):簡單解釋就是很悲觀,每次去拿數據的時候都認為別人會修改,所以每次在修改數據的時候都會上鎖,這樣別人想修改這個數據就會等待一直到它能拿到鎖。

樂觀鎖(Optimistic Lock):這個正好相反,就是很樂觀,每次去修改數據的時候都認為別人不會修改,所以不會上鎖,但是在提交更新的時候會判斷一下在此期間別人有沒有去更新這個數據。樂觀鎖適用於讀多寫少的應用場景,這樣可以提高吞吐量。

通過這兩種方式就能解決問題,不過選哪種比較好,我們來簡單分析下:

  • 悲觀鎖 通過 “select …… for update” 實現,就是在更新表前先對這條記錄進行上鎖,然後下面再執行更新語句。不過這種方式有些太重,畢竟加鎖還是需要很大時間成本的,不符合業務的需要,直接pass掉。
  • 樂觀鎖 相對就要輕量很多,它的主要實現就是通過在表中多增加一個記錄版本的字段,比如 version 。然後每次查詢記錄要更新時,where 後面都要加上 version=? ,這樣當你查詢拿到 version 後,如果有其他會話更新瞭這個字段,那這個 version 就會和你現在拿的不一樣,從而會使你這次的更新失效,需要重新獲取最新 version 後再次執行 update 語句。

問題解決

好瞭,經過以上分析,已經有瞭比較清晰的解決思路,剩下就是碼代碼瞭:

    /**
     * 樂觀鎖更新
     * @param id
     * @return
     */
    public boolean update(int id){
        int cnt = 0;
        while (cnt == 0) {
            USER user = query("SELECT * FROM table_user WHERE id = #{id}", id);
            cnt = update("UPDATE table_user SET version=version + 1, status = 2 WHERE id=#{id} AND version=#{version}", id, user.version());
            if(cnt > 0){
               // 返回更新成功
                return true;
            }
        }
        return false;
    }
 

總結

這裡隻是基於 Mysql 自身特性解決這個問題,當然還有很多其他的方式可以解決,例如通過 Redis 或者 MQ 消息隊列等,如果大傢感興趣我們可以以後再介紹。

更多關於python線上問題排查與解決的資料請關註WalkonNet其它相關文章!

推薦閱讀: