分類(lèi),就是確定某個(gè)對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類(lèi)的過(guò)程。
在機(jī)器學(xué)習(xí)中,分類(lèi)法有很多種,比如決策樹(shù)分類(lèi)法、基于規(guī)則的分類(lèi)法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和樸素貝葉斯分類(lèi)法,等等。
而決策樹(shù)是最常見(jiàn)的一種簡(jiǎn)單卻廣泛使用的分類(lèi)技術(shù)。
決策樹(shù),是一種樹(shù)形結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)表示一個(gè)屬性,每個(gè)分支代表屬性的取值,每個(gè)葉節(jié)點(diǎn)代表一種類(lèi)別。
第一步:選擇一個(gè)屬性,構(gòu)造根節(jié)點(diǎn)
比如選擇“月收入”構(gòu)造根節(jié)點(diǎn),其中“月收入”有三個(gè)取舍{低、中、高},因此根節(jié)點(diǎn)有三個(gè)分支,這樣,形成3個(gè)子結(jié)點(diǎn)(也就是有3個(gè)子類(lèi)別)。
如下圖所示,根節(jié)點(diǎn)中的數(shù)據(jù)表示,總共有14個(gè)人,其中違約用戶(hù)5個(gè),按照“月收入”進(jìn)行分類(lèi),可以分成3個(gè)子類(lèi)別,其中“收入低”的類(lèi)別共有5個(gè)人,其中違約用戶(hù)3個(gè);“收入中”的用戶(hù)共有4人,沒(méi)有人違約。
第二步:對(duì)于不純的子節(jié)點(diǎn),選擇一個(gè)屬性繼續(xù)生長(zhǎng)
對(duì)于“收入中”子節(jié)點(diǎn),只有一種用戶(hù)(非違約用戶(hù)),因此子節(jié)點(diǎn)是純的節(jié)點(diǎn),不需要繼續(xù)生長(zhǎng)了。
對(duì)于“收入低”子節(jié)點(diǎn),違約用戶(hù)和非違約用戶(hù)都有,屬于不純節(jié)點(diǎn),因此還需要繼續(xù)生長(zhǎng)。
在“收入低”子節(jié)點(diǎn)中,選擇一個(gè)屬性“性別 ”繼續(xù)生長(zhǎng),性別有2個(gè)取值{男、女},因此子結(jié)點(diǎn)可以分解為2個(gè)子節(jié)點(diǎn)。“收入低、男性”子節(jié)點(diǎn)中共有3個(gè)人,全部是違約用戶(hù);“收入低、女性”子節(jié)點(diǎn)共有2個(gè)人,全部都不是違約用戶(hù)。
類(lèi)似地,對(duì)于“收入高“的子節(jié)點(diǎn),選擇“行業(yè)”屬性進(jìn)行生長(zhǎng),也得到2個(gè)子節(jié)點(diǎn)。
決策樹(shù):構(gòu)造決策樹(shù),實(shí)現(xiàn)分類(lèi)預(yù)測(cè)
第三步:停止決策樹(shù)的生長(zhǎng)
如上圖所示,當(dāng)所有的子結(jié)點(diǎn)都滿(mǎn)足了停止生長(zhǎng)的條件(比如所有子結(jié)點(diǎn)都是純的),決策樹(shù)就算完成了。
此時(shí),所有的葉結(jié)點(diǎn)就是決策樹(shù)的分類(lèi)類(lèi)別。
第四步:評(píng)估分類(lèi)質(zhì)量
決策樹(shù)構(gòu)造好之后,需要評(píng)估模型的好壞(質(zhì)量)。
一般采用查準(zhǔn)率和查全率來(lái)衡量模型的好壞,如上例所示。
查準(zhǔn)率:總共有14個(gè)人,模型分類(lèi)正確的有14個(gè)人,即查準(zhǔn)率為100%。
查全率:總共有5個(gè)人違約,模型查出來(lái)的也是5個(gè)人,即查全率為100%。
查準(zhǔn)率和查全率都比較高,說(shuō)明模型比較好,可用。
第五步:提取“違約用戶(hù)”的特征
我們將有違約用戶(hù)的葉結(jié)點(diǎn)用背景色標(biāo)識(shí)出來(lái),可以發(fā)現(xiàn)那些違約用戶(hù)的特征:
1) 月收入低,且性別為男;
2) 月收入高,且在皮具行業(yè)工作。
第六步:預(yù)測(cè)新用戶(hù)預(yù)測(cè)
當(dāng)決策樹(shù)模型構(gòu)造好以后,就可以用來(lái)進(jìn)行預(yù)測(cè)。
當(dāng)一個(gè)新的申請(qǐng)貨款的用戶(hù)來(lái)貨款時(shí),可以根據(jù)決策樹(shù)模型,來(lái)評(píng)估用戶(hù)最有可能屬于哪一個(gè)節(jié)點(diǎn),如果新用戶(hù)所屬葉節(jié)點(diǎn)的違約風(fēng)險(xiǎn)極高,則應(yīng)該拒絕給新用戶(hù)貨款;否則可以進(jìn)行放貨。
決策樹(shù)的構(gòu)造,理解起來(lái)是很簡(jiǎn)單的。而且,容易生成或提取可識(shí)別的類(lèi)別特征。
當(dāng)然,其背后的實(shí)現(xiàn)算法還有很多需要思考的,比如應(yīng)該選擇哪個(gè)屬性來(lái)進(jìn)行生長(zhǎng)?屬性的分支取值如何確定?決策樹(shù)生長(zhǎng)的停止條件如何確定?這些內(nèi)容對(duì)于開(kāi)發(fā)者和算法設(shè)計(jì)者很重要,請(qǐng)關(guān)注我后續(xù)的文章。
轉(zhuǎn)載:http://www.oysg8.com/zixun_detail/111850.html


