Programación en lenguaje R (avanzado)
Este curso es la continuación de "Introducción a la programación en lenguaje R".
Se trata de un curso dirigido principalmente a los profesionales e investigadores que quieran trabajar los aspectos más avanzados de la programación en R. Uno de los lenguajes más populares para programación estadística, aprendizaje automático y la ciencia de los datos.
Objetivo
El objetivo es aprender las potencialidades y ventajas que esta herramienta de software libre ofrece para realizar operaciones de manejo de datos incluyendo el almacenamiento, recuperación, creación de estructuras de datos, confección de tablas y gráficos estadísticos, así como herramientas auxiliares para la preparación de informes, artículos y presentaciones con R.
Dirigido a
Profesionales o personas investigadoras de distintos ámbitos que tengan interés en conocer el programa R y en utilizar dicha herramienta en el ámbito de la programación, la estadística y las matemáticas. Se recomiendan conocimientos de estadística descriptiva.
Recomendación
Asistir previamente al Taller introductorio: Introducción a la programación en lenguaje R.
Programa
Unión de tablas:
- Unión de tablas similares vertical y horizontalmente.
- Enriquecimiento de una tabla con información de otra.
- Selección de los elementos comunes de varias tablas.
- Selección de los elementos comunes y no comunes de varias tablas.
Filtrado:
- Filtrado simple con variables no numéricas.
- Filtrado simple por variables numéricas.
- Filtrado compuesto por variables numéricas y no numéricas simultáneamente.
- Filtrado por la clase de las variables.
- Filtrado por el número de elementos diferentes de una variable.
- Eliminación de duplicados.
- Filtrado por las variables de otra tabla.
- Filtrado por las filas de otra tabla.
- Filtrado por los elementos de otra tabla.
- Valores únicos.
Tratamiento avanzado de datos:
- Extracción de los elementos de una fecha.
- Adición del día de la semana.
- Modificación de variables en función de otras variables.
- Agregaciones simples de datos.
- Agregaciones de los datos por varias variables.
- Gráficos avanzados de las agregaciones.
- Unión de varias agregaciones.
- Operaciones con variables.
- Modificación de caracteres en variables.
- Normalización simple de tablas.
- Normalización compuesta de tablas.
- Corrección de las normalizaciones.
- Verticalización de tablas.
Outliers:
- Definición.
- Problemas de su no tratamiento.
- Detección de outliers: Gráficamente. Extracción de los outliers. Determinación de las observaciones que incluyen outliers. Extracción de los valores de los outliers.
- Tratamiento de los outliers: Eliminación de las observaciones. Transformación en NAs. Creación de nuevas variables dummy de forma masiva. Tratamiento individualizado.
Valores perdidos:
- Cuantificación de los valores perdidos: Total, Por variables, Por observaciones.
- Análisis gráfico de los valores perdidos.
- Eliminación de los valores perdidos variable por variables.
- Eliminación masiva de los valores perdidos.
- Eliminación de variables con alto porcentaje de valores perdidos.
- Imputación por valores estadísticos (media, moda, mediana)
- Métodos de imputación múltiple.
- Creación de modelos para la imputación.