Python調用R語言實例講解

網絡上經常看到有人問數據分析是學習Python好還是R語言好,還有一些爭論Python好還是R好的文章。每次看到這樣的文章我都會想到李艦和肖凱的《數據科學中的R語言》,書中一直強調,工具不分好壞,重要的是解決問題的思路,就算是簡單的excel,也能應付數據分析中的大部分問題。再者Python和R本來就沒有什麼好對比的,一門是計算機工程語言,一門是統計語言,隻有將兩者結合起來,才能發揮更大的威力,不是嗎,對於數據分析的人來說,難道不是兩樣都要掌握的嗎?

rpy2是Python調用R程序的模塊,旨在方便Python調用R中的相關函數,而不需要先將數據寫入txt再傳給R來分析,從而可以做到全流程自動化。在pandas 0.18的模塊中也添加瞭rpy2的支持,進而更方便溝通瞭Python和R的數據流轉,構建數據分析的生態系統。

rpy2的安裝還是比較麻煩的,試瞭很多方法,百度瞭很多網頁最終安裝成功,做些筆記備忘。

我的安裝環境是:

  • win7_64bit
  • python3.5_64位,使用的是Anaconda發行版。Anaconda發行版集成瞭很多Python的有用的數據分析模塊,其使用界面和MATLAB很相似,用起來很方便,而且還很方便虛擬出不同版本的Python環境,對那些既想用python2.7,又想用python3.x的同學來說是很好的選擇。
  • R使用的是Revolution R Open 3.2.3_64bit,這是Revolution R現在已經被微軟收購瞭,改為MRO。MRO和CRAN的R沒有什麼區別,隻是改進瞭多進程並行計算的性能,比原生的R確實有一定的性能提升。當然需要MRO網站上對應的數學計算庫Math Library,這個在Revolution R Open的下載界面有。1.下載並安裝MRO

1.下載並安裝MRO

安裝對應的並行數學計算庫(可選)。下載地址是:
https://mran.revolutionanalytics.com/download/

2.下載安裝Anaconda

下載地址是:
https://www.continuum.io/downloads

3.配置R的環境變量

這是比較重要的一般,很多安裝失敗的原因就是沒有很好配置環境變量。
1. 將R目錄添加至path環境變量
path:D:\Program Files\Microsoft\MRO\R-3.2.3\bin\x64;
2. 將R.dll添加至path環境變量
path:D:\Program Files\Microsoft\MRO\R-3.2.3\bin\x64\R.dll;
3. 設置R_HOME環境變量
R_HOME:D:\Program Files\Microsoft\MRO\R-3.2.3
4. 設置R_USER環境變量
R_USER:Administrator
R_USER就是你電腦的用戶名,如果沒有設置過用戶名就是Administrator,可以通過cmd命令行輸入net user查看。

4.下載非官方版本的rpy2

為什麼要下載非官方版本的rpy2我也不知道,反正我使用pip install ryp2沒有成功,缺少對應的編譯環境,百度出來的網頁很多都是說使用非官方版本的rpy2.
下載地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/ 這是python下包的專用地址
需要下載版本和平臺都相對應的whl包,我下的是rpy2-2.9.4-cp36-cp36m-win_amd64.whl,然後使用pip install rpy2-2.9.4-cp36-cp36m-win_amd64.whl安裝即可。

5.python調用R

參考讓R與Python共舞和python中調用R

import rpy2.robjects as robjects
# 此時,有三種方法調用R對象
# 第一種
robjects.r['pi']
# 第二種
robjects.r('pi')
# 這種方法從某種程度上講是萬能的,因為可以將任意大小和長度的R代碼寫成一個python字符串,之後通過robjects.r('Rcode')調用執行
第三種
robjects.r.pi
# 這種方法對於名稱中有“點號”的變量會出問題,比如data.frame/read.csv等,所以推薦使用第一種方法
# creat an R function
robjects.r('''
   f <- function(r){pi * r}
   ''')
robjects.r['f'](3)

# internal function in R
robjects.r['ls']()

# another internal function
l = robjects.r['letters']
len(l)
robjects.r['paste'](l, collapse = '-')

# an alternative way of getting 'paste' function in R
# eval the R code
coder = 'paste(%s, collapse = "-")' % (l.r_repr())
robjects.r(coder)

6.pandas調用R

具體參考pandas官方文檔–rpy2 / R interface

7.pandas和R的函數對比

具體參考pandas官方文檔–Comparison with R / R libraries
列出瞭實現相同功能的pandas和R的代碼,很有啟發性。
同時也說明,有想法,用什麼工具實現都無所謂,糾結要選python還是R確實是舍本逐末瞭。如果時間不夠,精通其中的一門語言,另一門語言能夠掌握簡單的使用,也就夠瞭。

以後有事時間再詳細寫寫pandas調用R的部分,以它們之間數據來回傳輸的原理和註意事項。

我把下載的包放到瞭d盤的programdata

到此這篇關於Python調用R語言實例講解的文章就介紹到這瞭,更多相關Python調用R語言內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: