3. Cargar Datos Externos
Esta guía te enseñará a cargar, validar y preparar tus propios datos de crédito hipotecario para análisis y modelado.
Objetivo del Módulo
El módulo de carga de datos te permite:
📁 Importar datos externos en múltiples formatos
✅ Validar calidad automáticamente
🔧 Limpiar y preparar datos para análisis
📊 Visualizar problemas de calidad
💾 Guardar datos procesados para uso posterior
🔍 Detectar anomalías y valores atípicos
Formatos Soportados
El sistema acepta los siguientes formatos:
CSV (Comma-Separated Values)
✅ Extensión: .csv
✅ Encoding: UTF-8, Latin-1
✅ Separadores: coma, punto y coma, tabulador
✅ Tamaño máximo: 100 MB
Excel
✅ Extensión: .xlsx, .xls
✅ Múltiples hojas soportadas
✅ Tamaño máximo: 50 MB
Parquet
✅ Extensión: .parquet
✅ Formato columnar comprimido
✅ Ideal para datasets grandes
✅ Tamaño máximo: 200 MB
Acceso al Módulo
Navegar al módulo:
En el sidebar, click en:
📊 Gestión de Datos → 📁 Cargar Datos
Cargar Archivo
Método 1: Arrastrar y Soltar
Arrastra tu archivo desde el explorador
Suéltalo en el área designada
Espera la confirmación de carga
Área de carga:
┌─────────────────────────────────────┐
│ 📁 Arrastra tu archivo aquí │
│ │
│ o haz click para seleccionar │
│ │
│ Formatos: CSV, Excel, Parquet │
│ Tamaño máximo: 100 MB │
└─────────────────────────────────────┘
Método 2: Seleccionar Archivo
Click en «Browse files»
Navega a tu archivo
Selecciona y abre
Validación Automática
Una vez cargado, el sistema ejecuta validaciones automáticas:
Validación 1: Estructura del Archivo
✓ Archivo leído correctamente
✓ 10,000 registros detectados
✓ 25 columnas encontradas
✓ Encoding: UTF-8
Validación 2: Columnas Requeridas
El sistema verifica que existan las columnas mínimas:
edadsalario_mensualpuntaje_datacreditovalor_inmueblemonto_creditonivel_riesgo(opcional)
Advertencia
Si faltan columnas críticas, el sistema te pedirá mapearlas o agregarlas.
Validación 3: Tipos de Datos
✓ Variables numéricas: 18
✓ Variables categóricas: 7
✓ Conversiones necesarias: 2
Validación 4: Valores Faltantes
⚠ Valores faltantes detectados:
salario_mensual: 15 (0.15%)
puntaje_datacredito: 8 (0.08%)
ciudad: 3 (0.03%)
Validación 5: Valores Atípicos
⚠ Outliers detectados:
salario_mensual: 23 valores extremos
valor_inmueble: 12 valores extremos
Reporte de Calidad
El sistema genera un reporte completo:
Resumen General:
📊 REPORTE DE CALIDAD DE DATOS
================================
Total de registros: 10,000
Total de columnas: 25
Completitud: 99.7%
Calidad general: ★★★★☆ (4/5)
Problemas Detectados:
Problema |
Severidad |
Registros Afectados |
|---|---|---|
Valores faltantes |
Media |
26 (0.26%) |
Outliers extremos |
Baja |
35 (0.35%) |
Duplicados |
Alta |
0 (0%) |
Inconsistencias |
Media |
12 (0.12%) |
Limpieza de Datos
El módulo ofrece opciones de limpieza automática:
Opción 1: Valores Faltantes
Estrategia para valores faltantes:
○ Eliminar registros con faltantes
● Imputar con mediana (numéricos)
○ Imputar con moda (categóricos)
○ Dejar sin cambios
Opción 2: Outliers
Tratamiento de outliers:
○ Eliminar outliers extremos
● Winsorizar (reemplazar con percentiles)
○ Transformar (log, sqrt)
○ Dejar sin cambios
Opción 3: Duplicados
☑ Eliminar registros duplicados
Aplicar Limpieza:
[🔧 Aplicar Limpieza Automática]
Resultados Después de Limpieza
✓ Limpieza completada
Registros originales: 10,000
Registros eliminados: 26
Registros finales: 9,974
Valores imputados:
- salario_mensual: 15
- puntaje_datacredito: 8
- ciudad: 3
Outliers tratados: 35
Mapeo de Columnas
Si tus columnas tienen nombres diferentes, usa el mapeador:
Ejemplo:
Tus Columnas → Columnas del Sistema
─────────────────────────────────────────────────
age → edad
monthly_salary → salario_mensual
credit_score → puntaje_datacredito
property_value → valor_inmueble
loan_amount → monto_credito
Truco
El sistema intenta detectar automáticamente las correspondencias.
Guardar Datos Procesados
Una vez validados y limpiados:
[💾 Guardar Datos Procesados]
Opciones de guardado:
En memoria: Para uso inmediato en la sesión
CSV: Para exportar y compartir
Parquet: Para almacenamiento eficiente
Casos de Uso
Caso 1: Datos de Producción
Cargar datos reales de tu banco para análisis.
Caso 2: Datos de Terceros
Importar datasets de competencias o investigación.
Caso 3: Combinar con Sintéticos
Mezclar datos reales con sintéticos para aumentar volumen.
Troubleshooting
Problema: «Archivo muy grande»
Solución:
Divide el archivo en partes más pequeñas
Usa formato Parquet (más comprimido)
Filtra datos antes de cargar
Problema: «Encoding error»
Solución:
Guarda el archivo como UTF-8
Usa Excel para convertir encoding
Especifica encoding manualmente
Problema: «Columnas no reconocidas»
Solución:
Usa el mapeador de columnas
Renombra columnas en tu archivo
Consulta la documentación de variables requeridas
Próximos Pasos
Con tus datos cargados y validados:
Analizar: 4. Análisis Descriptivo
Crear características: 5. Ingeniería de Características
Entrenar modelos: 7. Máquina de Boltzmann Restringida (RBM)
¡Tus datos están listos para análisis! 🎉