R語言中Fisher判別的使用方法

最近編寫瞭Fisher判別的相關代碼時,需要與已有軟件比照結果以確定自己代碼的正確性,於是找到瞭安裝方便且免費的R。這裡把R中進行Fisher判別的方法記錄下來。

1. 判別分析與Fisher判別

不嚴謹但是通俗的說法,判別分析(Discriminant Analysis)是一種多元(多個變量)統計分析方法,它根據樣本的多個已知變量的值對樣本進行分類的方法。一般來說,判別分析由兩個階段構成——學習(訓練)和判別。在學習階段,給定一批已經被分類好的樣本,根據它們的分類情況和樣本的多個變量的值來學習(訓練)得到一種判別方法;在判別階段用前一階段得到的判別方法對其他樣本進行判別。

Fisher判別(Fisher Discrimination Method)又被稱為線性判別(LDA,Linear Discriminative Analysis),是判別分析的一種,歷史可以追溯到1936年。它的核心思想是將多維數據(多個變量)投影(使用線性運算)到一維(單一變量)上,然後通過給定閾值將樣本根據投影後的單一變量進行分類。

Fisher判別的學習(訓練)階段,就是找到合適的投影方式,使得對於已經被分類好的樣本,同一類的樣本被投影後盡量紮堆。學習階段的結果是找到一系列的系數(Coeffcient),構成形如

y=a1 * x1 + a2 * x2 + a3 * x3 + ... + an * xn

其中:a1,a2,... an是系數,x1,x2,... ,xn是變量值。

的判別式和閾值。而判別階段可以根據這個判別式計算出y,並根據閾值將樣本進行分類。

2. 在R中使用Fisher判別

R中使用Fisher判別說起來很簡單,但是我當初也放狗搜索瞭不短的時間才搞明白如何使用。

首先,它在R裡不叫Fisher,用Fisher搜索多半誤入歧途。在R中,它叫LDA(Linear Discriminative Analysis)。

其次,它存在於一個叫MASS的包裡。在Ubuntu 13.10中使用:

sudo apt-get install r-base

這樣安裝以後默認就有,然後使用下面語句引用這個包:

> library(MASS)

再次,引用瞭MASS包以後就可以使用lda命令瞭:

> params <- lda(y~x1+x2+x3, data=d)

其中,第一個參數是判別式的形式,第二個參數是用來訓練的樣本數據。lda命令執行後,會輸出構成判別式的各個系數。

最後,使用predict命令對未分類的樣本進行判別。

> predict(params, newdata)

其中,第一個參數是上一階段lda命令的結果,第二個參數是用來分類的樣本數據。自此,整個fisher判別過程完成。

3. 實例

3.1 數據

準備好兩個csv文件,用來訓練的已分類數據叫learn.csv,用來判別的未分類數據叫infer.csv。learn.csv共有六列構成,其第一行分別為Band1,Band2,Band3,Band4, Band5, Class,分別代表變量1、變量2、變量3和類別。infer.csv由六列構成:Band1, Band2, Band3, Band4, Band5。同樣第一列包含列名。csv文件的字段間都用逗號分隔。

3.2 操作步驟

1. 讀取learn.csv

> d <- read.csv("~/data/learn.csv")
> d2 <- read.csv("~/data/infer.csv")

2. 訓練

> lda(Class ~ Band1+Band2+Band3+Band4+Band5, data=d)

訓練結果:

> params
Call:
lda(Class ~ Band1 + Band2 + Band3 + Band4 + Band5, data = data)

Prior probabilities of groups:
    0     1 
0.4220068 0.5779932 

Group means:
   Band1   Band2   Band3  Band4  Band5
0 318.3189 0.0000000 0.0000000 0.00000 0.00000
1 322.1881 -0.7703634 -0.2642972 33.92608 36.39715

Coefficients of linear discriminants:
       LD1
Band1 0.02173212
Band2 -0.08647688
Band3 -0.01199366
Band4 0.10619769
Band5 0.10560976

3. 判別

> ret <- predict(params, d2)

輸出結果:

> write.csv(d2, file="~/data/output.csv"

到此這篇關於R語言中Fisher判別的使用方法的文章就介紹到這瞭,更多相關R語言中Fisher判別內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: