> 高考 >

梯度下降学习方法梯度下降算法步骤

高考 2025-08-03 21:37高考时间www.ettschool.cn

梯度下降算法是学习和机器学习中用于优化目标函数的迭代方法，其核心思想是通过计算目标函数的梯度并沿负梯度方向更新参数以最小化损失函数。以下是其关键步骤和变体：

1. 初始化参数

随机设置初始参数值（如权重w和偏置b）和学习率（步长α）。

2. 计算梯度

对当前参数计算损失函数的梯度（偏导数），反映函数在该点的变化率。例如，对于损失函数L(w,b)，梯度为L = [L/w, L/b]。

3. 更新参数

沿梯度负方向调整参数：

```text

w_new = w_old

α L/w

b_new = b_old

α L/b

```

学习率α控制步长，过大可能震荡，过小则收敛慢。

4. 迭代与终止

重复步骤2-3，直到梯度接近零（收敛）或达到预设迭代次数。

批量梯度下降（BGD）：每次迭代使用全部数据计算梯度，稳定但计算量大。

随机梯度下降（SGD）：每次随机选一个样本，速度快但波动大。

小批量梯度下降（MBGD）：折中方案，每次用一小批数据平衡效率与稳定性。

优化算法扩展：如动量法、Adam等通过自适应学习率或历史梯度加速收敛。

梯度下降基于泰勒展开近似局部函数形态，通过一阶导数（梯度）确定下降方向。对于凸函数（如二次损失），它能收敛到全局最优；非凸函数可能陷入局部最优。牛顿法等二阶方法利用Hessian矩阵加速收敛，但计算成本更高。

梯度下降学习方法 梯度下降算法步骤