CICC科普栏目｜一个有趣的决策树讲解

时间：2023-04-26 12:25:31

般来讲，接收者振幅就越，时说明如果用类型a来统称试样集合D，那么提纯就会增强，因为我们分别对试样的所有类型系数振幅情况，必需较大的来作为显然原因的一个给定，或者可以时说那些接收者振幅大的类型一般来时说离根给定越近，因为我们就会须要用能区分度大的也就是接收者振幅大的类型来透过统称。当一个类型早已作为统称的依据，在侧面就不在策划候选人了，我们昨天时说过根给定都有全部试样，而经过根给定侧面类型各个系数后试样又可以按照相应类型系数透过统称，并且在当前的试样下利用留下来的类型如此一来次系数接收者振幅来进一步必需统称的给定，ID3显然原因就是这样建立起来的。

ID3演算法瑕疵：

抗信道性欠，如果数据集试样数量缘故较少或信道缘故大，就就会造成了过粗略的情况。试样较少，其栽的构成大体上就是为较少数试样量身定动手的栽，如果信道缘故大，或试样较少且有信道的话，很多栽枝都是信道粗略出来的。在必需匹配外观上时，很容易排斥于必需“外观上系数种类较大”的外观上，作为定义外观上。我们举个相比较点的例子，假设有100个试样集，从前有一个外观上其系数种类也是100，如果按该外观上定义，就能把这个试样集细分100份，每份一个试样。在用ID3演算法动手显然原因时，肯定就会必需这个外观上作为第一个匹配外观上，因为这个外观上分出来的试样集每一个提纯都是最高。无法一处置外观上系数为连续标准型数据集的外观上。（不过可以考虑把连续标准型数据集转化成时域标准型数据集）

C4.5显然原因：先行算接收者振幅，然后如此一来也就是时说振幅赴援最高的

针对侧面时说的ID3演算法的第二个缺点“匹配外观上必需排斥于外观上种类较大的外观上”。我们先行来看下外观上种类较大时，定义就会发生什么。

假设都是均匀分布100个试样，外观上系数有2种的外观上就会把试样集细分50和50。外观上系数为4种的外观上就会把试样集细分25、25，25，25。

可见外观上系数越多，就就会造成了越多的“小数目”试样集，而小数目试样集在定义特性上是不如大试样集好的（如过粗略、抗噪欠等情况），所以对于某外观上定义后就会造成了“小数目”试样集的定义后的势能，我们必须有一个赎罪系数，即：定义后造成了的试样集越小，它的势能系数也要赎罪性的加大。

这样虽然ID3演算法里面就会因为很多定义后的小数量试样集而造成了低系数的期望势能，但动手赎罪系数一处置后，势能系数就就会平衡性的加大。

接收者振幅赴援：

在C4.5里面赎罪小数量试样集的动手法是，在根据某外观上定义，并系数出定义前后的势能欠后，如此一来系数该外观上的赎罪系数，用该定义外观上的势能欠除以赎罪系数推断“接收者振幅赴援”，使接收者振幅赴援就越的外观上，就是匹配外观上。即：

其里面赎罪系数大体上就是“接收者势能”，只不过这里的接收者指的不是系数接收者振幅时“试样集里面定义结果的平均不断定性”，而是“总试样集里面定义后子试样首集目标平均不断定性”，即：

其里面：

D：定义前的总试样数量。

i：按某外观上定义后试样有界SP。

Di：按某外观上定义后的第i个有界的数量。

由此时说明了，试样数量越较少，赎罪系数就越，平方根后的接收者振幅赴援也就越小，依此动手到了一定的平衡，由于“赎罪”了小试样数量集，其由于数量较少促使接收者振幅抗噪性欠的情况也受益一定程度的补救。

这就是C4.5演算法较大的好一处，补救了ID3演算法第二个瑕疵，缓解了ID3演算法的第一个瑕疵。不过ID3演算法的第三个不能一处置连续标准型外观上数据集的情况。C4.5演算法本身也不能直接一处置连续数据集。

另外，C4.5和ID3演算法还有一个在结构上，这俩演算法的显然实际上都要系数接收者振幅，而接收者振幅的一个单只就是要先行透过定义，然后才能系数振幅，所以，每系数一次振幅也就都有透过了一次定义，定义用了的外观上年中就不能如此一来用了，所以ID3和C4.5演算法在定义时就会不断消耗外观上。

CART显然原因：

单纯来讲就是，有一个类似于势能的指标叫Gini净资产，其都有了定义结果的不断定性，所以自然地是越小越好。

每次定义前系数定义前后的Gini净资产，求欠推断“Gini净资产振幅”，能使Gini净资产振幅较大的外观上就是匹配外观上。

必须警惕的是，CART演算法定义时，即使外观上有大于两个外观上系数，也还是就会把试样集细分两类，就此形成的是标准化二叉栽。

Gini净资产：

首先行系数定义前试样集的Gini净资产，Gini净资产想表达的东西和接收者势能类似，都是想表达试样集定义结果的不断定性，Gini净资产或势能就越，表示试样集定义结果不断定性也就越。

三种工具对比：

(1) ID3和C4.5在每个给定上可以造成了多个谱系，而CART每个给定只就会造成了两个谱系

(2) C4.5通过引入接收者振幅比，弥补了ID3在外观上系数比较大时，由于过粗略造成泛化灵活性变弱的瑕疵

(3) ID3才就会一处置时域标准型常量，而C4.5和CART可以一处置连续标准型常量

(4) ID3和C4.5才就会用于定义护航，而CART可以用于定义和复归护航

剪枝

显然原因的框架是一个迭代的每一次，理想情况下所有的记录都能被正确地定义，即转换成显然原因果路由器都有断定的类标准型，但现实这种条件一般来时说很难满足，这使得显然原因在框架时或许很难暂停。即使框架完成，也有时候就会使得最终的路由器数但就会，从而加剧极度粗略（overfitting），因此在实际广泛应用里面必须设定暂停条件，当降至暂停条件时，直接暂停显然原因的框架。但这即使如此不能完全补救极度粗略情况，极度粗略的典标准型表现是显然原因对训练数据集差错赴援很低，而对测试数据集其差错赴援却非常高。极度粗略常见原因有：

训练数据集里面存在信道；数据集不很强都有性。

极度粗略的典标准型表现是显然原因的路由器但就会，因此实际里面有时候必须对框架好的显然原因透过枝果裁剪（Prune Tree），但它不能补救显然情况，随机森林演算法的再次出现能够较好地补救极度粗略情况。

栽的剪枝统称实剪枝和后剪枝。

实剪枝：通过启发式工具，在转换成显然原因每一次里面对统称透过实测，若当前给定的统称不能对显然原因泛化可靠性增强，则暂停统称，并将其标记为果路由器后剪枝：对已有的显然原因，自底向上的对非果给定透过考察，若该给定相异的子栽替换为果给定能增强显然原因的泛化灵活性，则将改子栽替换为果给定。

上一篇： iOS 16公测版终于来了，果粉回来冲！

下一篇：海城市汇金日评观点丨11月23日