Python調用R語言實例講解
網絡上經常看到有人問數據分析是學習Python好還是R語言好,還有一些爭論Python好還是R好的文章。每次看到這樣的文章我都會想到李艦和肖凱的《數據科學中的R語言》,書中一直強調,工具不分好壞,重要的是解決問題的思路,就算是簡單的excel,也能應付數據分析中的大部分問題。再者Python和R本來就沒有什麼好對比的,一門是計算機工程語言,一門是統計語言,隻有將兩者結合起來,才能發揮更大的威力,不是嗎,對於數據分析的人來說,難道不是兩樣都要掌握的嗎?
rpy2是Python調用R程序的模塊,旨在方便Python調用R中的相關函數,而不需要先將數據寫入txt再傳給R來分析,從而可以做到全流程自動化。在pandas 0.18的模塊中也添加瞭rpy2的支持,進而更方便溝通瞭Python和R的數據流轉,構建數據分析的生態系統。
rpy2的安裝還是比較麻煩的,試瞭很多方法,百度瞭很多網頁最終安裝成功,做些筆記備忘。
我的安裝環境是:
- win7_64bit
- python3.5_64位,使用的是Anaconda發行版。Anaconda發行版集成瞭很多Python的有用的數據分析模塊,其使用界面和MATLAB很相似,用起來很方便,而且還很方便虛擬出不同版本的Python環境,對那些既想用python2.7,又想用python3.x的同學來說是很好的選擇。
- R使用的是Revolution R Open 3.2.3_64bit,這是Revolution R現在已經被微軟收購瞭,改為MRO。MRO和CRAN的R沒有什麼區別,隻是改進瞭多進程並行計算的性能,比原生的R確實有一定的性能提升。當然需要MRO網站上對應的數學計算庫Math Library,這個在Revolution R Open的下載界面有。1.下載並安裝MRO
1.下載並安裝MRO
安裝對應的並行數學計算庫(可選)。下載地址是:
https://mran.revolutionanalytics.com/download/
2.下載安裝Anaconda
下載地址是:
https://www.continuum.io/downloads
3.配置R的環境變量
這是比較重要的一般,很多安裝失敗的原因就是沒有很好配置環境變量。
1. 將R目錄添加至path環境變量
path:D:\Program Files\Microsoft\MRO\R-3.2.3\bin\x64;
2. 將R.dll添加至path環境變量
path:D:\Program Files\Microsoft\MRO\R-3.2.3\bin\x64\R.dll;
3. 設置R_HOME環境變量
R_HOME:D:\Program Files\Microsoft\MRO\R-3.2.3
4. 設置R_USER環境變量
R_USER:Administrator
R_USER就是你電腦的用戶名,如果沒有設置過用戶名就是Administrator,可以通過cmd命令行輸入net user
查看。
4.下載非官方版本的rpy2
為什麼要下載非官方版本的rpy2我也不知道,反正我使用pip install ryp2
沒有成功,缺少對應的編譯環境,百度出來的網頁很多都是說使用非官方版本的rpy2.
下載地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/ 這是python下包的專用地址
需要下載版本和平臺都相對應的whl包,我下的是rpy2-2.9.4-cp36-cp36m-win_amd64.whl,然後使用pip install rpy2-2.9.4-cp36-cp36m-win_amd64.whl
安裝即可。
5.python調用R
參考讓R與Python共舞和python中調用R
import rpy2.robjects as robjects # 此時,有三種方法調用R對象 # 第一種 robjects.r['pi'] # 第二種 robjects.r('pi') # 這種方法從某種程度上講是萬能的,因為可以將任意大小和長度的R代碼寫成一個python字符串,之後通過robjects.r('Rcode')調用執行 第三種 robjects.r.pi # 這種方法對於名稱中有“點號”的變量會出問題,比如data.frame/read.csv等,所以推薦使用第一種方法
# creat an R function robjects.r(''' f <- function(r){pi * r} ''') robjects.r['f'](3) # internal function in R robjects.r['ls']() # another internal function l = robjects.r['letters'] len(l) robjects.r['paste'](l, collapse = '-') # an alternative way of getting 'paste' function in R # eval the R code coder = 'paste(%s, collapse = "-")' % (l.r_repr()) robjects.r(coder)
6.pandas調用R
具體參考pandas官方文檔–rpy2 / R interface
7.pandas和R的函數對比
具體參考pandas官方文檔–Comparison with R / R libraries
列出瞭實現相同功能的pandas和R的代碼,很有啟發性。
同時也說明,有想法,用什麼工具實現都無所謂,糾結要選python還是R確實是舍本逐末瞭。如果時間不夠,精通其中的一門語言,另一門語言能夠掌握簡單的使用,也就夠瞭。
以後有事時間再詳細寫寫pandas調用R的部分,以它們之間數據來回傳輸的原理和註意事項。
我把下載的包放到瞭d盤的programdata
到此這篇關於Python調用R語言實例講解的文章就介紹到這瞭,更多相關Python調用R語言內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- 如何改變R語言默認存儲包的路徑
- Python3.9用pip安裝wordcloud庫失敗的解決過程
- 超詳細圖解修改pip install默認安裝路徑的方法
- 在Pycharm中安裝Pandas庫方法(簡單易懂)
- anaconda的安裝和配置環境及導入pycharm的方法