搞笑
机器学习 决策树(机器学习之决策树算法)

一、什么叫决策树?

二、决策树的原理是什么?

决策树的构造只会影响到算法的复杂度和计算的时间,不会影响决策的结果。

现在,我们来总结一下决策树的构成:

  • 根节点。第一个需要判断的条件,往往也是最具有特征的那个条件,我们称为根节点。
  • 中间节点。那个矩形总是要往下分,并不是最终的结果,它叫做中间节点(或内部节点)。
  • 边。那些带有文字的线段(一般使用有箭头的有向线段),线的一端连的是中间节点、另一端连的是另一个中间节点或叶节点,然后线段上还有文字,它叫做边。
  • 叶节点。那个圆角矩形,它就已经是最后的结果了,不再往下了,这一类东西呢,在决策树里叫做叶节点。

四、决策树的分类有哪些?

Breiman.L.I等人在1984年提出了CART算法,即分类回归树算法。CART算法用基尼指数(Gini Index)代替了信息熵,用二叉树作为模型结构,所以不是直接通过属性值进行数据划分,该算法要在所有属性中找出最佳的二元划分。CART算法通过递归操作不断地对决策属性进行划分,同时利用验证数据对树模型进行优化。

结构:二叉树结构

特点:可以处理缺失值,连续值,可以剪枝,避免过拟合。即可以处理分类问题,也可以处理回归问题。

基尼系数公式如下:

机器学习之决策树算法nerror="javascript:errorimg.call(this);">

数据集D的纯度可用基尼值来度量:

如何理解上面的公式呢?我们简单举个例子:

简单解释下为啥要这样算。

所以:

所以:

同理,当工资=0时,有5个样本,在这五个样本中,工作有3个是不好,2个是好。

同理,可得压力的基尼指数如下:

机器学习之决策树算法nerror="javascript:errorimg.call(this);">

注意啦,在计算时,工资和平台的计算方式有明显的不同。因为工资只有两个取值0和1,而平台有三个取值0,1,2。所以在计算时,需要将平台的每一个取值都单独进行计算。比如:当平台=0时,将数据集分为两部分,第一部分是平台等于0,第二部分是平台大于0。

我们选择工资作为第一特征,那么当工资=1时,工作=好,无需继续划分。

机器学习之决策树算法nerror="javascript:errorimg.call(this);">

当平台=0时,基尼指数=0,可以优先选择。

2. ID3(Iterative Dichotomiser 3)

处理问题类型:多分类

计算指标:信息增益

存在的缺陷:该算法未考虑如何处理连续属性、属性缺失以及噪声等问题

信息熵是一种信息的度量方式,表示信息的混乱程度,也就是说:信息越有序,信息熵越低。举个列子:火柴有序放在火柴盒里,熵值很低,相反,熵值很高。它的公式如下:

我们来看看代表之一 —— ID3算法。

这里又引入了另一个概念——熵。这里先不展开说了,我们记住他的概念:一个事情它的随机性越大就越难预测。

机器学习之决策树算法nerror="javascript:errorimg.call(this);">

比如,你如果能预测一个彩票的中奖号码就发达了。但是,如果你能预测明天太阳从东边升起来则毫无价值。这样衡量一个信息价值的事,就可以由熵来表示。

举个容易理解的例子:

步骤一:假设我们记录了某个学校14届校运会按时举行或取消的记录,举行或者取消的概率分别为:9/14、5/14,那么它的信息熵,这里也叫先验熵,为:

步骤三:我们计算知道天气情况后的条件熵。

步骤五:我们依次计算在有没有温度、湿度、风速条件前后的信息增益。

步骤七:生成决策树。选取信息增益最大的自变量作为根节点。其他的特征值依次选取为内部节点。

经过如上步骤,我们得到决策树。可以看到,最终们只选取了3个特征值作为内部节点。

机器学习之决策树算法nerror="javascript:errorimg.call(this);">

J.R.Quinlan针对ID3算法的不足设计了C4.5算法,引入信息增益率的概念。它克服了ID3算法无法处理属性缺失和连续属性的问题,并且引入了优化决策树的剪枝方法,使算法更高效,适用性更强。

同样介绍一下信息增益率:在决策树分类问题中,即就是决策树在进行属性选择划分前和划分后的信息差值。

机器学习之决策树算法nerror="javascript:errorimg.call(this);">

优势:

  1. 易于理解和解释,生成的决策规则可以直接转化为业务策略。
  2. 可处理分类问题及回归问题,分类问题可处理多分类问题。

六、 决策树的日常应用场景有哪些?

银行或金融机构在进行个人或企业信贷审批时,可以使用决策树模型根据申请人的特征(如年龄、收入水平、职业、负债情况等)来预测其违约风险,并据此制定贷款策略。

在市场细分中,公司可通过决策树分析客户的购买行为、消费习惯、地理位置等信息,以识别潜在的目标群体并定制营销策略。

构建疾病诊断模型,医生可以根据病人的症状、体检结果等因素快速得出可能的诊断结论,如心脏病发作的风险评估、肿瘤分类等。

虽然深度学习在图像识别方面表现优异,但在某些简单场景下,基于像素强度值或其他提取出的图像特征构建的决策树或随机森林也能实现有效分类,比如医学影像中的结节检测。

用于基于内容的推荐,根据用户的属性和历史行为数据建立模型,决定向用户推荐何种类型的商品或服务。

七大机器学习常用算法精讲:决策树与随机森林(三)-人人都是产品经理-火粒产品

AI产品经理必懂算法:决策树-人人都是产品经理-燕然未勒

本文由@厚谦 原创发布于人人都是产品经理,未经作者许可,禁止转载。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。


顶一下()     踩一下()

热门推荐

发表评论
0评