Resnet残差网络
思考 模型越复杂,是不是带来的好处就越多呢? 结构 残差块家族也有许多成员 Resnet块 重复多次,就得到了resnet网络 总结 残差块使得很深的网络更加容易训练 甚至可以训练一千层的网络 残差网络对随后的深层神经网络设计产生了深远影响,无论是卷积类网络还是全连接类网络
batch norm批量归一化
介绍 在训练模型的时候,对于一个网络来说: 前部:数据集中在前部,网络前面的层变化,则会导致后面的层也跟着变化->收敛速度慢 后部:损失是集中在网络后面的,所以往往后面的层训练较快 那有没有一种方式,使网络后面的层尽量保持不变呢? 批量归一化 定义 通过固定小批量数据的均值和方差,再引入可学习参数 γ 和 β 对数据进行调整,有助于加速模型的训练收敛,提高模型的稳定性 。 计算小批量均值和方差的公式: μB=1∣B∣∑i∈Bxi and σB2=1∣B∣∑i∈B(xi−μB)2+ϵ\mu_B = \frac{1}{|B|} \sum_{i\in B} x_i \text{ and } \sigma_B^2 = \frac{1}{|B|} \sum_{i\in B} (x_i - \mu_B)^2 + \epsilon μB=∣B∣1i∈B∑xi and σB2=∣B∣1i∈B∑(xi−μB)2+ϵ 然后对其做额外的调整: xi+1=γxi−μBσB+βx_{i + 1} = \gamma \frac{x_i - \mu_B}{\sigma_B} +...