12 - Detección de 'outliers' usando 'Isolation forests'

Mayo 29, 2024 por Miguel Sotaquirá

Lección 12 del curso Series de Tiempo: Pre-procesamiento.

En la lección anterior vimos cómo usar el método de z-scores para detección de “outliers” y vimos qué es menos robusto que el método de Tukey (también visto anteriormente), pues requiere que los datos (incluyendo los “outliers”) tengan una distribución normal.

En esta lección veremos otra alternativa muy usada para la detección objetiva de “outliers”: el uso de bosques de aislamiento o isolation forests.

Este método no es estadístico sino más bien heurístico y es independiente de la distribución que tengan nuestros datos.

Así que comenzaremos viendo un ejemplo sencillo para comprender el funcionamiento de este método y luego veremos cómo usarlo para detectar “outliers” en una Serie de Tiempo. Y, al igual que en las lecciones anteriores, veremos las ventajas y desventajas de este método en comparación con las tres técnicas que vimos anteriormente.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Muy bien acabamos de ver el principio de funcionamiento y la implementación práctica (usando la librería Scikit-Learn) del algoritmo de bosques de aislamiento (o isolation forests) para la detección de “outliers” en Series de Tiempo.

La idea básica del algoritmo consiste en subdividir iterativamente el set de datos para generar agrupaciones de datos cada vez más pequeñas hasta que cada dato esté aislado totalmente (es decir hasta tener agrupaciones de un sólo dato). Y luego la idea es cuantificar, por cada dato, cuántas particiones se requieren para lograr aislarlo totalmente (de ahí el nombre: bosques de aislamiento).

Y con esto ya tenemos cuatro diferentes alternativas para la detección de “outliers” en Series de Tiempo: el método de inspección visual (altamente subjetivo) y tres métodos más robustos y objetivos (Tukey, z-score y bosques de aislamiento).

Ninguno de estos métodos es mejor que otro, cada uno tiene sus ventajas y limitaciones y el éxito en su uso dependerá de las características propias de la Serie de Tiempo que estemos analizando.

Así que con esto ya hemos culminado este curso de “Series de Tiempo: pre-procesamiento” en donde hemos visto una introducción general a las Series de Tiempo así como las diferentes técnicas para el manejo de datos faltantes y para la detección de valores extremos en Series de Tiempo.

Te felicito por haber llegado a este punto y, como de costumbre, te invito a contactarme para que me compartas tu retroalimentación sobre este curso y tus sugerencias para seguir mejorando el contenido de la Academia Online.

¡Te envío un saludo y nos vemos en el próximo curso!

Ver todas las lecciones de este curso