4周PADS强化班 HOT
林超文手把手教你学!
张飞暑期特训班
教你1000种电路设计思路
年度IP:PFC电源
张飞硬件电路之PFC全集
30天AD项目众筹
参与免费送VIP+原创视频
最全模电系列教程 NEW
运放、ADC、电磁兼容

关于决策树,这些知识点不可错过

[复制链接]
发表于 2018-5-23 09:38:48   592 查看 0 回复 显示全部楼层 倒序浏览
分享
随着科学技术的发展,AI爱好者越来越多,除了一些精通AI的大神,还有很多的技术小白也对这方面感兴趣,他们想学习一些机器学习的入门知识。今天,讯飞开放平台就带来机器学习中的一个重要算法——决策树。
在开讲之前,咱们先来看个例子。

2.jpg

玩过狼人杀的小伙伴们都知道,不管游戏过程多么激烈,该游戏的最终结局只有4种。
为了让小伙伴们更直观地看到这4种结局,我画了个非常生动形象(简单粗暴)的图:
3.png

这幅图完整表达了狼人杀结局的各种情况,箭头指向一个判断条件在不同情况下的游戏结果,最后通过场上剩余的人来判断是谁获胜。

我们可以看出,在每一个关键节点(比如村人杀死所有的狼人?),依据判断条件,可以将答案划分为Yes  or  No,最后输出获胜一方。
通过树形结构,根据条件判断输出相应的结局,这种简单的算法,便是决策树的原型。

01 决策树——机器学习中的"倚天宝剑"

决策树是机器学习中很经典的一种算法。它既是分类算法,也是回归算法,还可以用在随机森林中。

咱们学计算机的同学经常敲if 、else if、else其实就已经在用到决策树的思想了。

决策树是一种简单常用的分类器,通过训练好的决策树可以实现对未知的数据进行高效分类。

从开头狼人杀的例子中也可以看出,决策树模型具有较好的可读性和描述性,能够帮助我们更高效率地去分析问题。

举个例子,普通人去银行贷款的时候,银行会根据相应条件,来判断贷款人是否具有还贷能力。
贷款用户主要具备三个属性:房产、婚姻、平均月收入。
拥有房产或结过婚或月收入大于4000的贷款用户具备偿还能力。
4.jpg

例如:用户甲没有房产,没有结婚,月收入5K,通过上图的判断条件可以判断出用户甲具备偿还贷款能力。
这整个判断还贷能力的过程,就用到了决策树的思想。  
   
02 决策树算法——基尼不纯度、熵

基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率,可以用来度量任何不均匀分布。

下图是组合1和组合2的基尼不纯度:
5.png

从图中我们可以看出,组合1的基尼不纯度大于组合2。

打个比方,基尼不纯度就像男生挑钻石向女生求婚,所有的钻石看着都很闪,但仔细比较价格却差很多,因为每颗钻石的的纯度不一样,纯度越高,价格也就越贵。

由此可总结出这样2种情况:
A、基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好  
B、基尼不纯度为 0 时,表示集合类别一致

熵度量的是事物的不确定性,越不确定的事物,它的熵就越大。
熵是信息论中的概念,用来表示集合的无序程度,熵越大表示集合越混乱,反之则表示集合越有序。

03 决策树算法——信息增益
信息增益越大,说明整个集合从无序到有序的速度越快,本次拆分越有效,则越适合用来分类。
通俗来讲,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。

我们以《非诚勿扰》为例,在男嘉宾出场之前,如果女嘉宾对男嘉宾一无所知,成为他女朋友的不确定性就比较高,如果知道其中的几个特征(如身高、性格等),不确定性就会减少很多。

由上面的例子可见,一个属性的信息增益越大,表明这个属性使得数据由不确定性变成确定性的能力越强

04 决策树算法的补充要点
关于剪枝
利用决策树算法构建一个初始的树之后,为了有效的分类,还要对其进行剪枝,剪枝是为了减少过拟合现象。

剪枝思路主要是两种:
一种是预剪枝,即在生成决策树的时候就决定是否剪枝。  
另一个是后剪枝,即先生成决策树,再通过交叉验证来剪枝。

关于过拟合
为了得到一致假设而使假设变得过度复杂称为过拟合。
比如,考试的时候,有的人采用题海战术,把每个题目都背下来。但是题目稍微变化一下,他就不会做了,因为他没有总结出通用的规则。

过拟合的原因一般有两种:
A.   模型太过复杂而样本量不足  
B.   训练集和测试机特征分布不一致



标签:人工智能
高级模式
您需要登录后才可以回帖 登录 | 注册

4周PADS强化班 HOT
林超文手把手教你学!
张飞暑期特训班
教你1000种电路设计思路
年度IP:PFC电源
张飞硬件电路之PFC全集
30天AD项目众筹
参与免费送VIP+原创视频
最全模电系列教程 NEW
运放、ADC、电磁兼容
关闭

站长推荐 上一条 /9 下一条

快速回复 返回顶部 返回列表
-

推荐专区

技术干货集中营

专家问答

方案交易

用户帮助┃咨询与建议┃版主议事

工程师杂谈

项目|工程师创意

招聘|求职}工程师职场

论坛电子赛事

社区活动专版

发烧友活动

-

嵌入式论坛

ARM技术论坛

Android论坛

Linux论坛

单片机/MCU论坛

MSP430技术论坛

FPGA|CPLD|ASIC论坛

STM32/STM8技术论坛

NXP MCU 技术论坛

PIC单片机论坛

DSP论坛

瑞萨单片机论坛

嵌入式系统论坛

-

电源技术论坛

电源技术论坛

无线充电技术

-

硬件设计论坛

PCB设计论坛

电路设计论坛

电子元器件论坛

控制|传感

总线技术|接口技术

-

测试测量论坛

LabVIEW论坛

Matlab论坛

测试测量技术专区

仪器仪表技术专区

-

EDA设计论坛

multisim论坛

PADS技术论坛

Protel|AD|DXP论坛

Allegro论坛

proteus论坛|仿真论坛

EasyEDA-中国人自已的EDA工具

Orcad论坛

-

综合技术与应用

电机控制

智能电网

光电及显示

工程资源中心

汽车电子技术论坛

医疗电子论坛

-

开源硬件

-

无线通信论坛

无线通信技术专区

天线|RF射频|微波|雷达技术

-

IC设计论坛

芯片测试与失效分析

Mixed Signal/SOC[数模混合芯片设计]

Analog/RF IC设计

设计与制造封装测试

-

厂商专区

TI论坛

TI Deyisupport社区

-

检测技术与质量

电磁兼容(EMC)设计与整改

安规知识论坛

检测与认证

-

消费电子论坛

手机技术论坛

平板电脑/mid论坛

音视/视频/机顶盒论坛

-

电子论坛综合区

聚丰众筹官方社区

新人报道区

聚丰供应链

-

论坛服务区

-

供求信息发布

供需广告

电子展览展会专区

芯片求购|供应发布区