决策树-yiteyi-C++库

决策树： 决策树是最强大、最流行的分类和预测工具。决策树是一种类似流程图的树结构，其中每个内部节点表示对属性的测试，每个分支表示测试的结果，每个叶节点（终端节点）持有一个类标签。

null

Decision_Tree (2)

网球概念的决策树。

决策树的构建： 一棵树可以 “博学” 通过基于属性值测试将源集拆分为子集。这个过程以递归的方式在每个派生子集上重复，称为 递归分区 当一个节点上的子集都具有相同的目标变量值时，或者当拆分不再为预测增加值时，递归完成。决策树分类器的构造不需要任何领域知识或参数设置，因此适合于探索性知识发现。决策树可以处理高维数据。一般来说，决策树分类器具有良好的精度。决策树归纳法是一种典型的归纳学习分类知识的方法。

决策树表示法： 决策树通过将实例从根节点向下排序到某个叶节点，从而对实例进行分类。通过从树的根节点开始，测试该节点指定的属性，然后向下移动对应于上图所示属性值的树枝，对实例进行分类。然后对在新节点上根的子树重复此过程。

上图中的决策树根据某个早晨是否适合打网球并返回与特定叶子相关的分类来对其进行分类。（在这种情况下是或否）。比如说

（前景=雨，温度=热，湿度=高，风=强）

将按此决策树最左边的分支排序，因此将被归类为负面实例。

换句话说，我们可以说决策树代表了实例属性值上约束的连接的分离。

（前景=晴朗^湿度=正常）v（前景=阴天）v（前景=雨^风=弱）

决策树方法的优缺点 决策树方法的优点是：

决策树能够生成可理解的规则。
决策树执行分类时不需要太多计算。
决策树能够处理连续变量和分类变量。
决策树明确指出了哪些字段对预测或分类最重要。

决策树方法的弱点：

决策树不太适用于目标是预测连续属性值的估计任务。
决策树在分类问题中很容易出错，因为它涉及的类很多，训练样本相对较少。
训练决策树的计算代价可能很高。生长决策树的过程在计算上非常昂贵。在每个节点上，必须对每个候选拆分字段进行排序，才能找到其最佳拆分。在某些算法中，使用字段组合，必须搜索最佳组合权重。剪枝算法也可能很昂贵，因为必须形成并比较许多候选子树。

参考资料： 机器学习，汤姆·米切尔，麦格劳·希尔，1997年。

在下一篇文章中，我们将讨论J.R.Quinlan给出的构造决策树的ID3算法。

本文由 萨洛尼·古普塔 .如果你喜欢GeekSforgek，并想贡献自己的力量，你也可以使用写极客。组织或者把你的文章寄去评论-team@geeksforgeeks.org.看到你的文章出现在Geeksforgeks主页上，并帮助其他极客。

如果您发现任何不正确的地方，或者您想分享有关上述主题的更多信息，请写下评论。

文章版权归作者所有，未经允许请勿转载。

THE END

技术文章