4. Análisis Descriptivo
Esta guía te enseñará a realizar análisis exploratorio completo de tus datos de crédito hipotecario, incluyendo estadísticas univariadas, bivariadas y visualizaciones interactivas.
Objetivo del Módulo
El módulo de análisis descriptivo te permite:
📊 Explorar distribuciones de variables individuales
📈 Analizar correlaciones entre variables
🔍 Detectar outliers y valores atípicos
📉 Visualizar patrones con gráficos interactivos
📋 Generar reportes estadísticos completos
🎯 Identificar insights para modelado
Acceso al Módulo
En el sidebar, click en:
📈 Análisis → 📈 Análisis Descriptivo
Análisis Univariado
Selección de Variables
Paso 1: Seleccionar variables
Selecciona variables para analizar:
☑ edad
☑ salario_mensual
☑ puntaje_datacredito
☑ dti
☑ nivel_riesgo
Paso 2: Ejecutar análisis
[🎯 Analizar Variables Seleccionadas]
Estadísticas Descriptivas
Para cada variable numérica, obtendrás:
Variable: salario_mensual
═══════════════════════════
Medidas de Tendencia Central:
• Media: $4,235,000
• Mediana: $3,850,000
• Moda: $3,500,000
Medidas de Dispersión:
• Desv. Estándar: $2,150,000
• Varianza: 4.62e+12
• Rango: $24,000,000
• IQR: $2,800,000
Percentiles:
• P5: $1,500,000
• P25: $2,600,000
• P50 (Mediana): $3,850,000
• P75: $5,400,000
• P95: $8,200,000
Forma de la Distribución:
• Asimetría: 1.23 (sesgada a derecha)
• Curtosis: 2.45 (leptocúrtica)
Tests de Normalidad:
• Shapiro-Wilk: p-value = 0.001 (No normal)
• Kolmogorov-S: p-value = 0.003 (No normal)
Visualizaciones Univariadas
1. Histograma con Curva de Densidad
Muestra la distribución de frecuencias con curva KDE superpuesta.
2. Boxplot (Diagrama de Cajas)
Identifica: - Mediana (línea central) - Cuartiles Q1 y Q3 (caja) - Valores atípicos (puntos fuera de bigotes) - Rango intercuartílico
3. Q-Q Plot (Gráfico Cuantil-Cuantil)
Compara la distribución con una normal teórica.
4. Violin Plot
Combina boxplot con densidad de probabilidad.
Truco
Usa el botón de descarga en cada gráfico para guardar las visualizaciones.
Variables Categóricas
Para variables categóricas (ej: nivel_riesgo):
Variable: nivel_riesgo
═══════════════════════
Frecuencias:
• Bajo: 6,074 (60.7%) ████████████████████████
• Medio: 2,943 (29.4%) ████████████
• Alto: 983 ( 9.8%) ████
Moda: Bajo
Entropía: 1.23 bits
Índice de Gini: 0.54
Visualizaciones:
Gráfico de barras
Gráfico de pastel
Tabla de frecuencias
Análisis Bivariado
Correlaciones
Matriz de Correlación:
[🔗 Calcular Matriz de Correlación]
Genera una matriz de calor mostrando correlaciones entre todas las variables numéricas.
Interpretación:
Correlación Interpretación
─────────────────────────────────
0.8 - 1.0 Muy fuerte positiva
0.6 - 0.8 Fuerte positiva
0.4 - 0.6 Moderada positiva
0.2 - 0.4 Débil positiva
-0.2 - 0.2 Muy débil/ninguna
-0.4 - -0.2 Débil negativa
-0.6 - -0.4 Moderada negativa
-0.8 - -0.6 Fuerte negativa
-1.0 - -0.8 Muy fuerte negativa
Correlaciones Importantes:
Top 5 Correlaciones Positivas:
1. salario_mensual ↔ patrimonio_total: 0.72
2. valor_inmueble ↔ monto_credito: 0.89
3. edad ↔ antiguedad_empleo: 0.58
4. puntaje_datacredito ↔ capacidad_ahorro: 0.45
5. estrato ↔ salario_mensual: 0.51
Top 5 Correlaciones Negativas:
1. dti ↔ capacidad_residual: -0.68
2. numero_demandas ↔ puntaje_datacredito: -0.23
3. ltv ↔ cuota_inicial: -0.85
4. edad ↔ plazo_credito: -0.42
5. egresos ↔ capacidad_ahorro: -0.78
Scatter Plots
Gráficos de Dispersión:
Selecciona dos variables para ver su relación:
Variable X: salario_mensual
Variable Y: valor_inmueble
Color por: nivel_riesgo
[📊 Generar Scatter Plot]
Características:
Puntos coloreados por categoría
Línea de tendencia
Coeficiente de correlación
Intervalos de confianza
Análisis por Grupos
Comparar distribuciones por categoría:
Variable numérica: dti
Agrupar por: nivel_riesgo
[📊 Comparar Grupos]
Resultados:
DTI por Nivel de Riesgo:
Bajo: Media = 23.5%, Mediana = 22.8%
Medio: Media = 29.2%, Mediana = 28.5%
Alto: Media = 34.8%, Mediana = 35.2%
Test ANOVA: F = 245.3, p < 0.001
Conclusión: Diferencias significativas entre grupos
Visualizaciones:
Boxplots comparativos
Violin plots por grupo
Histogramas superpuestos
Tablas de Contingencia
Para dos variables categóricas:
Variable 1: tipo_empleo
Variable 2: nivel_riesgo
[📋 Generar Tabla de Contingencia]
Resultado:
Bajo |
Medio |
Alto |
|
|---|---|---|---|
Formal |
4,250 (65%) |
1,580 (24%) |
720 (11%) |
Informal |
1,420 (51%) |
980 (35%) |
390 (14%) |
Independiente |
404 (62%) |
183 (28%) |
63 (10%) |
Test Chi-Cuadrado:
χ² = 89.5, p < 0.001
Conclusión: Asociación significativa
Detección de Outliers
Métodos Automáticos
1. Método IQR (Rango Intercuartílico)
Outliers detectados en salario_mensual:
Límite inferior: Q1 - 1.5*IQR = $0
Límite superior: Q3 + 1.5*IQR = $9,600,000
Outliers superiores: 23 valores
Valores: [$10.2M, $11.5M, $12.8M, ...]
2. Método Z-Score
Outliers (|Z| > 3):
salario_mensual: 15 valores extremos
valor_inmueble: 8 valores extremos
patrimonio_total: 12 valores extremos
3. Isolation Forest
Algoritmo de ML para detectar anomalías multivariadas.
Visualización de Outliers
Boxplots con outliers marcados
Scatter plots con outliers resaltados
Histogramas con zonas de outliers
Reportes Estadísticos
Reporte Completo
[📄 Generar Reporte Completo]
Incluye:
Resumen Ejecutivo - Tamaño del dataset - Variables analizadas - Hallazgos principales
Estadísticas Univariadas - Todas las variables numéricas - Todas las variables categóricas
Análisis Bivariado - Matriz de correlación - Top correlaciones - Tests estadísticos
Detección de Anomalías - Outliers por variable - Registros problemáticos
Recomendaciones - Variables para transformar - Outliers a tratar - Próximos pasos
Exportar Resultados
Formatos disponibles:
[📊 Exportar a Excel]
[📄 Exportar a PDF]
[📋 Exportar a CSV]
[🖼️ Exportar Gráficos]
Casos de Uso
Caso 1: Exploración Inicial
Objetivo: Entender la estructura de los datos.
Pasos: 1. Analizar todas las variables numéricas 2. Revisar distribuciones 3. Identificar outliers 4. Generar reporte inicial
Caso 2: Validación de Calidad
Objetivo: Verificar calidad antes de modelar.
Pasos: 1. Detectar valores atípicos 2. Verificar normalidad 3. Analizar correlaciones 4. Identificar problemas
Caso 3: Feature Selection
Objetivo: Seleccionar variables para modelos.
Pasos: 1. Calcular correlaciones con target 2. Identificar multicolinealidad 3. Analizar importancia de variables 4. Seleccionar features óptimas
Tips y Mejores Prácticas
✅ Haz:
Analiza todas las variables antes de modelar
Documenta hallazgos importantes
Compara distribuciones por grupos
Verifica supuestos estadísticos
❌ Evita:
Ignorar outliers sin investigar
Asumir normalidad sin verificar
Pasar por alto correlaciones altas
Omitir análisis bivariado
Troubleshooting
Problema: Gráficos no se generan
Solución: Verifica que hayas seleccionado variables válidas.
Problema: Tests estadísticos fallan
Solución: Asegúrate de tener suficientes datos (n > 30).
Problema: Correlaciones inesperadas
Solución: Verifica calidad de datos y outliers.
Próximos Pasos
Con tu análisis completo:
Crear características: 5. Ingeniería de Características
Segmentar clientes: 6. Clustering y Segmentación
Entrenar RBM: 7. Máquina de Boltzmann Restringida (RBM)
¡Has completado el análisis exploratorio! 📊