VSCODE調試RDKit內核的方法步驟(C++)

在研究 RDKit 的一些算法的時候,總希望能夠“進入到代碼中”看這些變量到底是什麼,哪些代碼塊會被執行。可 RDKit 的編譯比較復雜,如果是 Python 的部分,那麼可以直接在 VSCode 中進行調試,記得在 launch 中設置 “justMyCode: false”,詳見該問題。但如果想要調試 C++ 的部分,則就復雜很多,需要是用調試模式重新編譯 RDKit 的源碼。對於沒有用過VSCode 編譯 C++ 項目的小夥伴來說,這裡有很多坑需要踩。

這個過程可以分為三個部分:安裝 RDKit 所需環境,安裝 VSCode 相應插件, 寫調試代碼編譯

安裝 RDKit 所需環境

源碼安裝 RDKit 一直是一件麻煩事,在過去我們不得不自己安裝所需依賴,包括 Numpy,Boost,CMake 好在現在有瞭 Anaconda,讓安裝依賴變得省心很多。不過 Anaconda 也是把雙刃劍,筆者遇到由於不同環境被 CMake 混亂使用導致一些潛在的問題,這個在最後提到。

我們可以參考 RDKit 官方文檔進行環境安裝 https://www.rdkit.org/docs/Install.html#how-to-build-from-source-with-conda

筆者使用 MacOS 測試,而且已經安裝上瞭 Anaconda,於是想要創建一個新環境

conda create -n rdkit-dev
conda activate rdkit-dev
conda install numpy matplotlib
conda install cmake cairo pillow eigen pkg-config
conda install boost-cpp boost py-boost

筆者的 Anazonda 裝在 /Users/zealseeker/opt/anaconda 中,所以該環境對應的是:

export PYROOT=/Users/zealseeker/opt/anaconda/env/rdkit-dev

另外註意到新建的環境用的是 python3.9,下面會用到。
然後下載源碼到一個目錄,筆者一般將所有用 git 下載的項目都放到 Documents/git 這個目錄下。

cd /Users/zealseeker/Documents/git
git clone https://github.com/rdkit/rdkit.git
cd rdkit

到這一步已經可以瞭,但為瞭確保 RDKit 的安裝一切會順利,不妨先嘗試編譯一把。下面寫 3.9 就是因為我們裝的是 Python 3.9。與官方介紹不同的是,由於我們隻需要調試裡面的源代碼,一些可有可無的功能就不需要激活瞭。按道理這這樣配置編譯會順利通過(如果不並行,可能會編譯一個小時…)

mkdir build
cd build
cmake -DPYTHON_INCLUDE_DIR=$PYROOT/include/python3.9  \
  -DRDK_BUILD_AVALON_SUPPORT=OFF \
  -DRDK_BUILD_CAIRO_SUPPORT=OFF \
  -DRDK_BUILD_INCHI_SUPPORT=OFF \
  ..
make -j6 # 或著不並行,就用 make,但會慢很多

配置 VSCode 使其能 Debug

首先先要讓 VSCode 支持 C++ 和 CMake,需要安裝 C++ extension for VS Code 和 CMake Tools extension for VS Code 這兩個插件。裝完後需要進行一下配置,非常關鍵:

配置 Intellisense

雖然說這個不配置問題應該不大,但可能發現編輯器到處都是 problem 和波浪線,因為編輯器不知道應該去哪裡找頭文件,具體可參考這裡。

以下是筆者的配置方法:在 .vscode 下創建 c_cpp_properties.json 文件,在裡面添加:

{
    "configurations": [
        {
            "name": "Mac",
            "includePath": [
                "${workspaceFolder}/Code", "/Users/zealseeker/opt/anaconda3/envs/rdkit-dev/include",
                "/Users/zealseeker/opt/anaconda3/envs/rdkit-dev/include/python3.9",
                "/Users/zealseeker/opt/anaconda3/envs/rdkit-dev/lib/python3.9/site-packages/numpy/core/include"
            ],
            "defines": [],
            "macFrameworkPath": [
                "/Library/Developer/CommandLineTools/SDKs/MacOSX.sdk/System/Library/Frameworks"
            ],
            "compilerPath": "/usr/bin/clang",
            "cStandard": "c17",
            "cppStandard": "c++17",
            "intelliSenseMode": "macos-clang-x64"
        }
    ],
    "version": 4
}

主要配置的就是 includePath,這裡需要加入 RDKit 源代碼目錄 (Code),Anaconda 的 include,Anaconda 的 Python 以及 Anaconda 的 Numpy。按理配置完後就能看到所有的錯誤和波浪號都消失瞭(可以隨便打開個 cpp 文件看下是否有錯誤),如果還有錯誤,則需要具體看是什麼。(Windows 貌似會復雜點,具體參考官方文檔。)

配置 CMake

打開 CMake Tools extension for VS Code 這個插件的配置,點擊設置按鈕 – 擴展設置,就會進入到 VSCode 的設置界面並已經用 @ext:ms-vscode.cmake-tools 進行篩選瞭。然後看到有 User 和 Workspace 兩個選擇,前者可以認為是全局設置,後者為項目設置,我們選擇後者。需要修改如下幾個選項:

  • Cmake: Cmake Path

由於我們用的是 Anaconda 環境下的 CMake,尤其如果像筆者這樣通過新增環境得到的,可能 CMake 沒有被加入到 Path 環境變量。檢查的方法是在 terminal 裡輸入 which cmake,如果出現 cmake not found,則說明未加入到環境變量,需要手動配置,筆者的 CMake 在:/Users/zealseeker/opt/anaconda3/envs/rdkit-dev/bin/cmake,所以將該路徑加入到配置中即可。而如果用的是 base 環境,則可能不需要配置,因為 CMake 已被加入到環境變量。如果發現該 CMake 並非之前在 Anaconda 裝的那個,則仍然需要配置,否則可能會出現尋找錯誤的庫的問題,詳見最後一節。

  • Cmake: Configure Args

這個對應執行 CMake 時的參數,即那些 -DXXXX=xxx 的內容,筆者為瞭圖方便,僅配置瞭 Python

-DPYTHON_INCLUDE_DIR=/Users/zealseeker/opt/anaconda3/envs/rdkit-dev/include/python3.9

也可以根據需要將諸如 -DRDK_BUILD_CAIRO_SUPPORT=OFF 也加進去,尤其是如果後續發現編譯時在 CAIRO 的地方出錯瞭,則可以考慮禁用它。

小貼士,我們可以查看 .vscode 下是否有 settings.json 文件,並且該文件中是否有下面兩個配置以判斷是否配置成功。

{
    "cmake.cmakePath": "/Users/zealseeker/opt/anaconda3/envs/rdkit-dev/bin/cmake",
    "cmake.configureArgs": [
        "-DPYTHON_INCLUDE_DIR=/Users/zealseeker/opt/anaconda3/envs/rdkit-dev/include/python3.9"
    ]
}
  • 編譯(可選)

全都配置完全,可以考慮先 Build 一下,看看有沒有問題,按一下底部狀態欄的 Build 按鈕則會自動開始編譯(需要不少時間)。如果未能編譯完成,則需要檢查其錯誤,看是哪裡出瞭問題。

新建調試文件進行調試

筆者在根目錄下創建瞭個 debug 文件夾,並在裡面創建瞭 test.cpp 和 CMakeLists.txt 兩個文件。test.cpp 自然是用於調試的文件,新建 main 函數,傳入苯的 SMILES,將其轉化成 RWMol 對象。非常簡單的操作,僅僅是用於證明可以進入調試狀態。

#include <GraphMol/SmilesParse/SmilesParse.h>
#include <GraphMol/Depictor/RDDepictor.h>
using namespace RDKit;
    
int main( int argc , char **argv ){
    std::cout << "Importing benezene";
    std::string smi = "c1ccccc1";
    RWMol *newM;
    newM = SmilesToMol(smi, 0, true); 
    return 0
}

CMakeLists 筆者是參考瞭 RDKit 的例子,個人感覺不是最好,畢竟原例子並不需要我們同時編譯 RDKit 源碼和測試代碼,而是作為“已安裝 RDKit 該如何調用其 C++ 接口”的例子,但筆者能力有限,隻能很僵硬地照搬。路徑基本寫死,比如 library 在 $RDBASE/build/lib 裡(因為隻編譯未安裝,所以庫都會在 build 文件夾下)

cmake_minimum_required( VERSION 3.5 )

project(RDKitSV)

set(RDBASE "/Users/zealseeker/Documents/git/rdkit")
set(CMAKE_MODULE_PATH ${CMAKE_MODULE_PATH} "${RDBASE}/Code/cmake/Modules")
set(CMAKE_CXX_STANDARD 14)
find_package( Boost COMPONENTS iostreams filesystem system)
include_directories ( ${RDBASE}/Code)
link_directories ( ${RDBASE}/build/lib )
set(RDKit_LIBS RDKitFileParsers RDKitSmilesParse RDKitDepictor
        RDKitRDGeometryLib RDKitRDGeneral RDKitSubstructMatch RDKitSubgraphs
        RDKitMolDraw2D RDKitGraphMol RDKitDistGeometry RDKitDistGeomHelpers
          RDKitMolAlign RDKitOptimizer RDKitForceField RDKitForceFieldHelpers
        RDKitAlignment RDKitForceField  RDKitMolTransforms RDKitEigenSolvers )
find_package (Threads)
set(RDKit_THREAD_LIBS Threads::Threads)

set( LIBS ${RDKIT_LIBRARIES} Boost::iostreams ${RDKit_THREAD_LIBS} z  )
include_directories(${RDKIT_INCLUDE_DIR})
add_executable( TestMol test.cpp )
target_link_libraries( TestMol ${LIBS} ${RDKit_LIBS})

然後在根目錄的 CMakeLists.txt 裡的最後面增加一行,將 debug 文件夾加入到編譯內容中。

add_subdirectory(debug)

此時萬事俱備,再次點擊狀態欄的 Build 按鈕即可進行最終的編譯,如果之前已經在配置好
VSCode-Cmake 後編譯過一次,則這次會很快。編譯完後,我們就可以調試瞭,調試前確定調試目標是否正確:在 Build 的右邊分別有 debug(一個蟲子)和 run(運行按鈕),再右邊是運行目標(launch target),要確定其為 TestMol,如果不是,則需要點擊選擇並輸入 TestMol,它應該在 $rdkit/build/debug/TestMol。

最後點擊小蟲子即可進行調試,並記得加斷點,確定可以正常調試。

Anaconda 環境問題

由於筆者電腦裡有多個 Anaconda 環境導致 CMake 在尋找庫的時候可能會找錯地方,因此一定要檢查 CMake 是否找對瞭,盡管理論上找錯瞭問題也不大,但至少當最後編譯或者運行時報錯時可以有據可循。

筆者在 Anaconda 的 base 環境和 rdkit-dev 環境中都有 Boost,而除瞭 rdkit-dev 中有 CMake 外,自己也下載瞭個 CMake。筆者發現如果用自己下載的 CMake 編譯,會導致其尋找的是 base 環境下的 Boost (因為 VSCode 編譯時並不會激活 rdkit-dev 環境)。因此一定要使用 rdkit-dev 下的 CMake,即確保 Boost 所在 Anaconda 環境和 CMake 是同一個。

另外,筆者在編輯器中還看到下述問題,盡管其不影響編譯與調試,但說明 CMake 在尋找庫時仍然選擇瞭錯誤的地方。可惜筆者一直不知如何修復,若有大神還請留言協助。該問題說明 CMake 在尋找 libcairo 時尋找的是 base 環境,而其他庫在 rdkit-dev 和 build 中,他們之間可能存在相互依賴關系。解決方法應該是讓 libcairo 去 rdkit-dev 中找,而不是 base 環境,可並不知道如何設置這個尋找路徑優先級。

CMake Warning at Code/cmake/Modules/RDKitUtils.cmake:49 (add_library):Cannot generate a safe runtime search path for target MolDraw2D because
there is a cycle in the constraint graph:

  dir 0 is [/Users/zealseeker/Documents/git/rdkit/build/lib]
  dir 1 is [/Users/zealseeker/opt/anaconda3/envs/rdkit-dev/lib]
    dir 2 must precede it due to runtime library [libcairo.dylib]
  dir 2 is [/Users/zealseeker/opt/anaconda3/lib]
    dir 0 must precede it due to runtime library [libRDKitChemReactions.1.dylib]
    dir 1 must precede it due to runtime library [libboost_system.dylib]

Some of these libraries may not be found correctly.

參考資料

https://code.visualstudio.com/docs/cpp/cmake-linux

到此這篇關於VSCODE調試RDKit內核的方法步驟(C++)的文章就介紹到這瞭,更多相關VSCODE調試RDKit內核內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: