决策树分类的定义以及优缺点

发布 2019-08-10 17:42:55 阅读 9121

缺点。一般决策树的劣势:

1)缺乏伸缩性:由于进行深度优先搜索,所以算法受内存大小限制,难于处理大训练集。一个例子:

在irvine机器学习知识库中,最大可以允许的数据集仅仅为700kb,2000条记录。而现代的数据仓库动辄存储几个g-bytes的海量数据。用以前的方法是显然不行的。

2)为了处理大数据集或连续量的种种改进算法(离散化、取样)不仅增加了分类算法的额外开销,而且降低了分类的准确性,对连续性的字段比较难**,当类别太多时,错误可能就会增加的比较快,对有时间顺序的数据,需要很多预处理的工作。

但是,所用的基于分类挖掘的决策树算法没有考虑噪声问题,生成的决策树很完美,这只不过是理论上的,在实际应用过程中,大量的现实世界中的数据都不是以的意愿来定的,可能某些字段上缺值(missin**alues);可能数据不准确含有噪声或者是错误的;可能是缺少必须的数据造成了数据的不完整。

另外决策树技术本身也存在一些不足的地方,例如当类别很多的时候,它的错误就可能出现甚至很多。而且它对连续性的字段比较难作出准确的**。而且一般算法在分类的时候,只是根据一个属性来分类的。

在有噪声的情况下,完全拟合将导致过分拟合(overfitting),即对训练数据的完全拟合反而不具有很好的**性能。剪枝是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。另外,决策树技术也可能产生子树复制和碎片问题。