问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
你好,欢迎来到懂视!登录注册
当前位置: 首页 - 正文

机器学习故事汇-集成算法

发布网友 发布时间:2022-04-24 16:44

我来回答

1个回答

热心网友 时间:2022-05-12 02:15

机器学习故事汇-集成算法
【咱们的目标】系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习,适合对数学很头疼的同学们,小板凳走起!

今天咱们就来讨论一下传说中的集成算法,之前咱们讲的算法都是单兵作战的(单个模型得到结果),但是回过头来想一想现在是不是干啥都讲究个合作共赢,所以咱们的模型也是如此。单个算法确实势单力薄,假如我们可以把它们组合起来会不会得到更好的效果呢?(算法们要揭竿起义了,今亡亦死举大计亦死。。。编不下去了)
在集成算法中,有三个核心模块,咱们就一一道来,先来概述一下:
Bagging集成:并行的构造多个基础模型(随机森林),每一个基础模型都各自为政,然后把它们的结果求一个平均就好!
Boosting集成:串行的构造多个基础模型(Xgboost),每一个基础模型都要严格筛选,在前面的基础上加进来的新模型后,它们整体的效果起码得没加这个新的基础模型前要强吧!
Stacking集成:多种算法群殴一起上!选择多个机器学习算法做同一件事,最后把它们的结果合并就OK啦!

先来看看第一个家伙Bagging模型,其典型代表就是随机森立了,简单来说就是并行的训练一堆树模型,然后求其平均结果,在这里我们要讨论一个问题,就是每个树模型该怎么构造呢?如果不加入任何*,那每个树模型不都差不多嘛,那最后的平均结果又会有什么变化呢?所以为了结果的泛化能力更强,必须要使得每个树模型表现出多样性,也就是尽可能的让每个树模型都不一样!

这该怎么做呢?什么影响模型呢?数据绝对是最大的影响因子,这里的森林很好理解了,就是把树放在一起,那么随机又是什么呢?为了保证每个树的多样性,在构建模型时,我们做了二重随机(我自创的词。。。)第一重就是对样本的选择,每次随机的有放回的选择部分样本作为一棵树的训练样本(比如选择百分之八十作为训练集)。第二重还要考虑特征了,既然样本数据能随机,那么特征也是一样的,每棵树选择的特征也是不一样的随机选择部分特征来建模!

随机的意义非常重要,这是随机森林的精神所在!

随机森林作为灰常经典的机器学习算法,优势自然少不了,当我们建模完之后,还可以对特征进行重要性评估,其实简单来说一个特征的重要与否可以取决于建模的时候如果把这个特征换成噪音特征再去看看结果的错误率是不是显著上升,如果显著上升,那么这个特征自然很重要,如果没变化,那这个特征就没啥用了,因为它和噪音没啥区别!

随机森林中树的个数是不是越多越好呢?理论上越多的树效果应该会更好吧,但是实际上我们把树的个数增加到一定的时候比如100棵了已经,再往上增加树的个数结果也只会发生小范围的浮动,基本也就稳定了!

Boosting集成中典型的代表就属Xgboost啦,一个大杀器,这个算法由于涉及的数学比较多,咱们后续来一个专题去讲Xgboost,我们先来看看简单些的Adaboost。

Adaboost算法概述来说就是,首选我有一个非常简单的模型,比如深度为1的树模型,然后我去预测一下结果,在结果中我发现某些样本预测错了,这个时候第二个简单的树模型就来了,还是同样的任务只不过数据的权重发生了变换,一开始所有的数据都是相同的权重,但是第二次会把前面那次预测错的数据的权重增大,相对来说预测对的数据的权重就会减小。说白了就是让后面的模型更注重我之前哪些数据分错了,这回好能分对它!(好比我们在考试前都会复习之前做错的题)

最后来看一下堆叠模型吧,社会我Stacking,人狠话不多,不需要多解释,做了一堆算法,然后把它们的结果堆叠起来,每个算法都有自己的预测结果,这些结果组合在一起那不相当于一个新的特征嘛,再把它们结果组成的特征去做一个分类或者回归,又得到了一个唯一的结果。
声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
bwp是什么币别 boc是什么货币 bgn什么币 什么是博茨瓦纳普拉 EXCEL能用函数实现自动打分吗,就是那种去掉最低分和最高分后的总分... excel怎么自动计算比赛成绩 咸鱼怎么删除卖家的好评和评分 你怎么现在才吃饭呢???韩语翻译下 why don't you come and play with me什么意思 为什么不出去吃饭 翻译 注册公司必须要有股东吗 马桶到底是V型好还是U型好还是O型好,有什么区别? 广本新推出的皓影怎么样?值不值得买? 神经系统调节人体各项生理活动的基本方式是__ 我家买个马桶东鹏,商标字母doomPong 试驾| 本田皓影混动,一辆怎么买都不会选错的均衡车型 开个公司可以没有股东吗? xgboost怎么实现模型融合 神经调节的基本方式是______.反射弧的组成包括:传入神经、______、神经中枢、______、______ 注册公司需要几个人呢? 上下班通勤,买广汽本田皓影混动车型怎么样? 座便器的 MD/LD 分别代表什么意思? xgboost的优缺点是? 本田皓影混动版上手感觉怎么样,这车性价比高不高? 注册公司一定要法人,监事,股东吗 马桶各个坑距分别用什么字母表示 xgboost算法可以用来干嘛 什么材料可以代替隔断玻璃 注册有限公司必须得是三个人才能够资格吗? 微生物在生物圈中的作用 求这一节的教案 皓影的混动版可靠性如何? 一个公司成立需要几个人 市区开皓影汽油还是混动更合适? 只有两个股东能不能注册集团公司 分享混动版广汽本田皓影——原厂黑武士版! xgboost 多分类 标签怎么设置 注册公司投标一定要两个人吗 皓影混动车型相比其他车型,在外观上有哪些亮点? 混动版的皓影动力如何?有哪些配置? 成立公司的流程和要求 python xgboost中,xgb.DMatrix的label是什么,训练是目标数据放在哪里呀 皓影选汽油版还是混动版本? 一个女生说XGB是什么意思???跪求答案 差价2万元,广汽本田皓影该买汽油版还是混动版? 皓影颜值妥妥,但混动的外观和燃油版有什么区别啊? 下面哪些算法不可以用来做回归 boosting 思腾合力云平台是什么东西? ai技术就业前景? 生命有它的图案 , 我们惟临摹 。是什么意思 生命有它的图案,我们惟有临摹是什么意思
  • 焦点

最新推荐

猜你喜欢

热门推荐