浅谈梯度下降法/Gradient descent
先来看一幅图② 这幅图表示的是对一个目标函数寻找最优解的过程,图中锯齿状的路线就是寻优路线在二维平面上的投影。从这幅图我们可以看到,锯齿一开始比较大(跨越的距离比较大),后来越来越小;这就像一个人走路迈的步子,一开始大,后来步子越迈越小。 这个函数的表达式是这样的: 它叫做Rosenbrock function(罗森布罗克函数)③,是个非凸函数,在最优化领域,它可以用作一个最优化算法的performance test函数。这个函数还有一个更好记也更滑稽的名字:banana function(香蕉函数)。 我们来看一看它在三维空间中的图形: 它的全局最优点位于一个长长的、狭窄的、抛物线形状的、扁平的“山谷”中。 找到“山谷”并不难,难的是收敛到全局最优解(在 (1,1) 处)。 正所谓: 我们再来看下面这个目标函数的寻优过程④: 和前面的Rosenbrock function一样,它的寻优过程也是“锯齿状”的。 它在三维空间中的图形是这样的: 总而言之就是:当目标函数的等值线接近于圆(球)时,下降较快;等值线类似于扁长的椭球时,一开始快,后来很慢。 5. 为什么“慢”? 从上面花花绿绿的图,我们看到了寻找最优解的过程有多么“艰辛”,但不能光看热闹,还要分析一下原因。 在最优化算法中,精确的line search满足一个一阶必要条件,即:梯度与方向的点积为零 (当前点在 由此得知: 即: 故由梯度下降法的 即:相邻两次的搜索方向是相互直交的(投影到二维平面上,就是锯齿形状了)。 如果你非要问,为什么 可知两向量夹角为90度,因此它们直交。 6. 优点 这个被我们说得一无是处的方法真的就那么糟糕吗? 其实它还是有优点的:程序简单,计算量小;并且对初始点没有特别的要求;此外,许多算法的初始/再开始方向都是最速下降方向(即负梯度方向)。 7. 收敛性及收敛速度 梯度下降法具有整体收敛性——对初始点没有特殊要求。 采用精确的line search的梯度下降法的收敛速度:线性。 引用:
(编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |