博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
决策树
阅读量:5940 次
发布时间:2019-06-19

本文共 624 字,大约阅读时间需要 2 分钟。

决策树是应用最广的归纳推理算法之中的一个,它是一种逼近离散函数方法,对噪声数据有非常好的鲁棒性,可以学习析取表达式,广为应用的算法有ID3,ASSISTANT和C4.5。

通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。树根到树叶的每一条路径相应一组属性測试的合取,而整棵树是这些合取的析取。

主要的ID3算法是通过自顶向下构造决策树进行学习的。首先考虑的问题是哪一个属性将在树的根节点測试。为解决这一问题,使用统计測试来确定每个实例属性单独分类训练样本的能力。将分类能力最好的属性作为树的跟节点,之后根节点属性的每个可能值会产生一个分支,然后把训练例子排列到适当的分支下,反复整个过程,用每个分支结点关联的训练样本来选择最佳属性。这是对合格决策树的贪婪搜索,也就是说算法从不回溯又一次考虑曾经的选择。

那么,怎样确定哪一个属性具有最佳分类能力呢?衡量属性价值的好的定量标准是什么?我们使用“信息增益(information gain)”来作为衡量标准。用来衡量属性分类样本的能力。ID3算法在增长树的每一步使用这个标准来选择最佳分类的属性。

为精确定义信息增益。我们先定义信息论中广泛使用的一个度量标准——熵(entropy),它刻画了随意样本集的纯度。

给定包括关于某个目标概念的正反样本的样本集S  。那么S 

posted @
2017-07-14 13:31 阅读(
...) 评论(
...)

转载地址:http://ztmtx.baihongyu.com/

你可能感兴趣的文章
GitHub上的编程语言:JavaScript领衔Java次之
查看>>
微软发布了Spartan项目的细节,并证实了某些流言
查看>>
全面了解大数据“三驾马车”的开源实现
查看>>
.NET Core 2.1预览分层编译特性
查看>>
公有云还能信任吗?Azure遭雷击中断超过一天
查看>>
量子计算竞速时代,如何拨动时间的指针
查看>>
统计php脚本执行时间的php扩展
查看>>
华中科大提出EAT-NAS方法:提升大规模神经模型搜索速度
查看>>
Spring框架5.1将提供对Java 11的支持
查看>>
切勿版本化Web API
查看>>
SpringOne 2017第二日:Juergen Hoeller的演讲
查看>>
Hyperledger Composer评测
查看>>
差分隐私简介
查看>>
Java将弃用finalize()方法?
查看>>
Apache Pulsar中的地域复制,第1篇:概念和功能
查看>>
干净架构在 Web 服务开发中的实践
查看>>
云原生的浪潮下,为什么运维人员适合学习Go语言?
查看>>
Puppet 4 性能提升超2倍,升级前应该你知悉的变化
查看>>
初创企业的离岸敏捷
查看>>
F# 2017回顾
查看>>