4. Análisis Descriptivo

Esta guía te enseñará a realizar análisis exploratorio completo de tus datos de crédito hipotecario, incluyendo estadísticas univariadas, bivariadas y visualizaciones interactivas.

Objetivo del Módulo

El módulo de análisis descriptivo te permite:

  • 📊 Explorar distribuciones de variables individuales

  • 📈 Analizar correlaciones entre variables

  • 🔍 Detectar outliers y valores atípicos

  • 📉 Visualizar patrones con gráficos interactivos

  • 📋 Generar reportes estadísticos completos

  • 🎯 Identificar insights para modelado

Acceso al Módulo

En el sidebar, click en:

📈 Análisis → 📈 Análisis Descriptivo

Análisis Univariado

Selección de Variables

Paso 1: Seleccionar variables

Selecciona variables para analizar:

☑ edad
☑ salario_mensual
☑ puntaje_datacredito
☑ dti
☑ nivel_riesgo

Paso 2: Ejecutar análisis

[🎯 Analizar Variables Seleccionadas]

Estadísticas Descriptivas

Para cada variable numérica, obtendrás:

Variable: salario_mensual
═══════════════════════════

Medidas de Tendencia Central:
• Media:           $4,235,000
• Mediana:         $3,850,000
• Moda:            $3,500,000

Medidas de Dispersión:
• Desv. Estándar:  $2,150,000
• Varianza:        4.62e+12
• Rango:           $24,000,000
• IQR:             $2,800,000

Percentiles:
• P5:              $1,500,000
• P25:             $2,600,000
• P50 (Mediana):   $3,850,000
• P75:             $5,400,000
• P95:             $8,200,000

Forma de la Distribución:
• Asimetría:       1.23 (sesgada a derecha)
• Curtosis:        2.45 (leptocúrtica)

Tests de Normalidad:
• Shapiro-Wilk:    p-value = 0.001 (No normal)
• Kolmogorov-S:    p-value = 0.003 (No normal)

Visualizaciones Univariadas

1. Histograma con Curva de Densidad

Muestra la distribución de frecuencias con curva KDE superpuesta.

2. Boxplot (Diagrama de Cajas)

Identifica: - Mediana (línea central) - Cuartiles Q1 y Q3 (caja) - Valores atípicos (puntos fuera de bigotes) - Rango intercuartílico

3. Q-Q Plot (Gráfico Cuantil-Cuantil)

Compara la distribución con una normal teórica.

4. Violin Plot

Combina boxplot con densidad de probabilidad.

Truco

Usa el botón de descarga en cada gráfico para guardar las visualizaciones.

Variables Categóricas

Para variables categóricas (ej: nivel_riesgo):

Variable: nivel_riesgo
═══════════════════════

Frecuencias:
• Bajo:   6,074 (60.7%) ████████████████████████
• Medio:  2,943 (29.4%) ████████████
• Alto:     983 ( 9.8%) ████

Moda: Bajo
Entropía: 1.23 bits
Índice de Gini: 0.54

Visualizaciones:

  • Gráfico de barras

  • Gráfico de pastel

  • Tabla de frecuencias

Análisis Bivariado

Correlaciones

Matriz de Correlación:

[🔗 Calcular Matriz de Correlación]

Genera una matriz de calor mostrando correlaciones entre todas las variables numéricas.

Interpretación:

Correlación    Interpretación
─────────────────────────────────
0.8 - 1.0      Muy fuerte positiva
0.6 - 0.8      Fuerte positiva
0.4 - 0.6      Moderada positiva
0.2 - 0.4      Débil positiva
-0.2 - 0.2     Muy débil/ninguna
-0.4 - -0.2    Débil negativa
-0.6 - -0.4    Moderada negativa
-0.8 - -0.6    Fuerte negativa
-1.0 - -0.8    Muy fuerte negativa

Correlaciones Importantes:

Top 5 Correlaciones Positivas:
1. salario_mensual ↔ patrimonio_total: 0.72
2. valor_inmueble ↔ monto_credito: 0.89
3. edad ↔ antiguedad_empleo: 0.58
4. puntaje_datacredito ↔ capacidad_ahorro: 0.45
5. estrato ↔ salario_mensual: 0.51

Top 5 Correlaciones Negativas:
1. dti ↔ capacidad_residual: -0.68
2. numero_demandas ↔ puntaje_datacredito: -0.23
3. ltv ↔ cuota_inicial: -0.85
4. edad ↔ plazo_credito: -0.42
5. egresos ↔ capacidad_ahorro: -0.78

Scatter Plots

Gráficos de Dispersión:

Selecciona dos variables para ver su relación:

Variable X: salario_mensual
Variable Y: valor_inmueble
Color por: nivel_riesgo

[📊 Generar Scatter Plot]

Características:

  • Puntos coloreados por categoría

  • Línea de tendencia

  • Coeficiente de correlación

  • Intervalos de confianza

Análisis por Grupos

Comparar distribuciones por categoría:

Variable numérica: dti
Agrupar por: nivel_riesgo

[📊 Comparar Grupos]

Resultados:

DTI por Nivel de Riesgo:

Bajo:   Media = 23.5%, Mediana = 22.8%
Medio:  Media = 29.2%, Mediana = 28.5%
Alto:   Media = 34.8%, Mediana = 35.2%

Test ANOVA: F = 245.3, p < 0.001
Conclusión: Diferencias significativas entre grupos

Visualizaciones:

  • Boxplots comparativos

  • Violin plots por grupo

  • Histogramas superpuestos

Tablas de Contingencia

Para dos variables categóricas:

Variable 1: tipo_empleo
Variable 2: nivel_riesgo

[📋 Generar Tabla de Contingencia]

Resultado:

Bajo

Medio

Alto

Formal

4,250 (65%)

1,580 (24%)

720 (11%)

Informal

1,420 (51%)

980 (35%)

390 (14%)

Independiente

404 (62%)

183 (28%)

63 (10%)

Test Chi-Cuadrado:

χ² = 89.5, p < 0.001
Conclusión: Asociación significativa

Detección de Outliers

Métodos Automáticos

1. Método IQR (Rango Intercuartílico)

Outliers detectados en salario_mensual:

Límite inferior: Q1 - 1.5*IQR = $0
Límite superior: Q3 + 1.5*IQR = $9,600,000

Outliers superiores: 23 valores
Valores: [$10.2M, $11.5M, $12.8M, ...]

2. Método Z-Score

Outliers (|Z| > 3):

salario_mensual: 15 valores extremos
valor_inmueble: 8 valores extremos
patrimonio_total: 12 valores extremos

3. Isolation Forest

Algoritmo de ML para detectar anomalías multivariadas.

Visualización de Outliers

  • Boxplots con outliers marcados

  • Scatter plots con outliers resaltados

  • Histogramas con zonas de outliers

Reportes Estadísticos

Reporte Completo

[📄 Generar Reporte Completo]

Incluye:

  1. Resumen Ejecutivo - Tamaño del dataset - Variables analizadas - Hallazgos principales

  2. Estadísticas Univariadas - Todas las variables numéricas - Todas las variables categóricas

  3. Análisis Bivariado - Matriz de correlación - Top correlaciones - Tests estadísticos

  4. Detección de Anomalías - Outliers por variable - Registros problemáticos

  5. Recomendaciones - Variables para transformar - Outliers a tratar - Próximos pasos

Exportar Resultados

Formatos disponibles:

[📊 Exportar a Excel]
[📄 Exportar a PDF]
[📋 Exportar a CSV]
[🖼️ Exportar Gráficos]

Casos de Uso

Caso 1: Exploración Inicial

Objetivo: Entender la estructura de los datos.

Pasos: 1. Analizar todas las variables numéricas 2. Revisar distribuciones 3. Identificar outliers 4. Generar reporte inicial

Caso 2: Validación de Calidad

Objetivo: Verificar calidad antes de modelar.

Pasos: 1. Detectar valores atípicos 2. Verificar normalidad 3. Analizar correlaciones 4. Identificar problemas

Caso 3: Feature Selection

Objetivo: Seleccionar variables para modelos.

Pasos: 1. Calcular correlaciones con target 2. Identificar multicolinealidad 3. Analizar importancia de variables 4. Seleccionar features óptimas

Tips y Mejores Prácticas

Haz:

  • Analiza todas las variables antes de modelar

  • Documenta hallazgos importantes

  • Compara distribuciones por grupos

  • Verifica supuestos estadísticos

Evita:

  • Ignorar outliers sin investigar

  • Asumir normalidad sin verificar

  • Pasar por alto correlaciones altas

  • Omitir análisis bivariado

Troubleshooting

Problema: Gráficos no se generan

Solución: Verifica que hayas seleccionado variables válidas.

Problema: Tests estadísticos fallan

Solución: Asegúrate de tener suficientes datos (n > 30).

Problema: Correlaciones inesperadas

Solución: Verifica calidad de datos y outliers.

Próximos Pasos

Con tu análisis completo:

  1. Crear características: 5. Ingeniería de Características

  2. Segmentar clientes: 6. Clustering y Segmentación

  3. Entrenar RBM: 7. Máquina de Boltzmann Restringida (RBM)

¡Has completado el análisis exploratorio! 📊