R語言因子型數值轉數值型的操作

一直覺得隻要是數字,不管是什麼類型的,都可以通過as.numeric()函數轉換為對應的numeric類型的數字,例如

x<-“123”,x為character類型,而as.numeric(x)則為numeric類型的123。

但是因子(factor)類型卻不一樣。

a<-factor(c(100,200,300,301,302,400,10)),它們的值分別為100 200 300 301 302 400 10,然而

as.numeric(a)對應的值並非100 200 300 301 302 400 10,而是2 3 4 5 6 7 1。

因子(factor)轉換成數值型(numeric)的規則是這樣的:

一共有n個數,那麼轉換後的數字就會在1——n中取值,數字最小的取一,次小的取二,以此類推。

那麼如何讓因子(factor)類型裡的數值轉換對應的數值型呢?

     mean(as.numeric(as.character(factorname)))
     mean(as.numeric(levels(factorname)[factorname]))

以上代碼都可以實現將因子(factor)類型裡的數值轉換對應的數值型,思路都是先轉換成字符型然後再轉換成數值型。

補充:R_as.numeric()函數在轉換小數時返回無意義結果的解決

本文重點解決as.numeric()函數將factor轉為數值時得出的無意義結果的解決

假設有數據框aaa

x   |    y     |       value 
------------------------------------------
a1      b2        0.510665432157769
a2      b3        0.887655678543227
..      ..              ...

運行as.numeric(aaa[1,3]),返回的結果居然是123?當然,這隻是個栗子,為瞭表達問題所在。真正運行時不一定得到的結果是123

在R help中找到如下參考

Warning

If x is a factor, as.numeric will return the underlying numeric (integer) representation, which is often meaningless as it may not correspond to the factor levels, see the ‘Warning’ section in factor (and the 2nd example below).

看到meaningless這個詞瞭嗎,意思是如果使用as.numeric轉換一個因子,則通常會返回一個無意義的結果,是因子的一個“整型數字象征”,因為R為瞭節省內存提高速度,因子類型底層是用C語言中的int實現的,因子的值與該整型數值的“轉換表格”存儲在內存中。

那麼我們如何解決呢?

嵌套使用

as.numeric(as.character(aaa[1,3]))

這樣返回的就是正常應轉化的數值,而不是一個無意義的結果如一百二十三。

但上面的方法有一個問題,在小數點後位數太大時輸出結果會四舍五入。

對於這個,我們可以使用print()函數中的參數digit,print(as.numeric(as.character(aaa[1,3])),digits = 16),輸出的就是不帶四舍五入的完整值

理論上format(xx, digits = 16)也可以保證長度,但我沒在這種情況下試。

以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。