2.23 - Otros algoritmos de optimización: RMSPROP
Lección 23 de la sección “Redes Neuronales” del curso Fundamentos de Deep Learning con Python.
Tabla de contenido
Introducción
En la lección anterior hablamos del algoritmo del Gradiente Descendente con Momentum, y vimos cómo el uso de la media móvil permite acelerar el proceso de entrenamiento.
En esta lección veremos cómo el uso de un paso variable en el algoritmo de RMSPROP resulta también siendo una alternativa para agilizar el entrenamiento en comparación con el algoritmo clásico del Gradiente Descendente.
Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Limitaciones del Gradiente Descendente con Momentum
La desventaja del Algoritmo del Gradiente Descendente con Momentum visto en la lección anterior es que el tamaño del paso usado en la actualización de los coeficientes es constante, así que a medida que el algoritmo se acerca al mínimo local puede haber oscilaciones alrededor del mismo que le impiden llegar a un valor óptimo.
El principo de funcionamiento del algoritmo RMSPROP
La idea del algoritmo RMSPROP es usar un tamaño de paso variable, es decir que cambie en cada iteración.
La idea específicamente es que el tamaño del paso aumente dependiendo del valor del gradiente en la iteración respectiva, y este elemento se incluye como parte de la actualización de los coeficientes en cada iteración.
De esta forma:
- Si los gradientes son relativamente grandes el tamaño del paso será “pequeño” y con esto se busca evitar oscilaciones alrededor del mínimo global.
- Por el contrario, si los gradientes son relativamente pequeños el tamaño del paso será “grande” y esto acelerará el proceso de entrenamiento.
Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Conclusión
Muy bien, ya vimos cómo el algoritmo de RMSPROP permite controlar el tamaño del paso dependiendo del tamaño mismo del gradiente en cada iteración. Esto permite tener que varía dependiendo de la fase de entrenamiento en la que se encuentre el algoritmo.
En la siguiente lección veremos entonces cómo combinar lo visto acerca del Gradiente Descendente con Momentum con este algoritmo de RMSPROP para tomar lo mejor de los dos métodos y lograr tener un algoritmo que permita realizar un mejor entrenamiento de las Redes Neuronales.
Así que en la próxima lección hablaremos del Algoritmo de Optimización Adam.