相关下载详见 “视觉计算研究论坛”「SIGVC BBS」: http://www.sigvc.org/bbs/thread-29-1-3.html Random forest = a classifier consisting of a collection of tree-structured classifiers {h(x,Qk),k=1,...} where the {Qk} are independent identically distributed random vectors and each tree casts a unit vote for the most popular class at input。 Two kinds of RF —Results of Forest-RI —误差率和AdaBoost差不多 —F = 1 和 log2M + 1误差率差不多 —在三个大数据集上F = 1 比 log2M + 1误差率有一定差距 —结论: —RF和AdaBoost的分类性能差不多 —RF的速度比AdaBoost快很多 —很多时候只随机取一个输入(F=1)就能得到很好的效果 —Results of Forest-RC —误差率和AdaBoost差不多 —小样本集上F=2足够,F=8有点多余 —大样本集上F=8更好 —结论: —RF和AdaBoost的分类性能差不多 —Forest-RC和Forest-RI差不多,在合成数据集上Forest-RC更好 —RF的特点: —具有和现有最好的分类算法同样的分类性能 —速度快:可以并行(更快),不需要交叉验证 —不会过拟合 —数据不需要预处理,对外点和缺少特征鲁棒 —可以用定义的样本proximity进行聚类 —和boosting比的优点: —调节参数较容易 —大样本集上速度快 —不会过拟合 —可以并行处理各个树,因为它们是独立的 —证明误差上界和分类器强度和彼此相关性的关系 —多种随机性可以提高分类性能:随机输入,bagging