Featured image

Feature Selection & Engineering

La selección y transformación de variables es un paso previo a la realización de cualquier modelo de Machine Learning o Deep Learning, ya sea predecir datos numéricos o categóricos, sistemas de visión artificial o proyectos que incluyan procesamiento del lenguaje natural.

Por ello en el presente curso se busca que los alumnos comprendan la importancia de la realización de estos procesos, así como las diferentes técnicas existentes para ello.

Dirigido a

Personas que desean conocer la importancia que tiene realizar una correcta selección de variables y transformación de estas para aplicar de forma correcta los modelos de Machine Learning y de Deep Learning, así como conocer los diferentes procedimientos existentes en la actualidad.

Requisitos

Es recomendable tener conocimientos de programación en Python, aunque no es indispensable.

Programa

Conceptos básicos:

  • Qué es un modelo.
  • Validación de modelos.
  • Problema de sesgo y varianza.
  • Sobre entrenamiento de modelos.
  • Ventajas de la selección de variables.

Requisitos de las variables explicativas:

  • Temporalidad.
  • Fiabilidad.
  • Capacidad de generalización.
  • Varianza mínima.
  • Calidad del dato.

Selección de variables a partir del conocimiento del negocio.
Análisis gráficos:

  • BoxPlot.
  • ScatterPlot.
  • PairsPanels.
  • Gráficos de correlación

Selección en base a criterios estadísticos:

  • Correlación.
  • Contraste de hipótesis.
  • Puntajes de Chi Cuadrado.
  • Tabla Anova.
  • Contraste de Wilcoxon.
  • Kendal´s
  • Tablas de doble entrada.
  • Mutual Information.

Métodos de envoltorio:

  • Recursive Feature Elimination (RFE).
  • Método de Subconjunto hacia Adelante/Atrás.

Métodos basados en modelos:

  • Regresion Lineal.
  • Regresion Logistica.
  • Lasso Regresion.
  • Ridge Regresion.
  • Arbol de decisión.
  • Random Forest.
  • XGBoost.

Ejemplos prácticos.
Transformaciones de datos tabulares:

  • Tratamiento de valores extremos.
  • Valores perdidos.
  • Toma de logaritmos.
  • Raíz Cuadrada.
  • Modelado no lineal.
  • Normalización de los datos.
  • Box-Cox Transformation.
  • One Hot Encoding.
  • Target Encoding.

Transformaciones para la visión artificial:

  • One Hot Encoding.
  • Normalizacion de los datos.

Transformaciones para el PLN:

  • One Hot Encogind.
  • Count Vectorizer.
  • Bag of Words.
  • N-Gramas
  • Term Frequency-Inverse Document Frecuency (Vectorización TF-IDF)