10. Reentrenamiento de Modelos

Esta guía te enseñará a actualizar y reentrenar modelos con nuevos datos para mantener su precisión y relevancia en producción.

Objetivo del Módulo

El módulo de reentrenamiento te permite:

  • 🔄 Actualizar modelos con nuevos datos

  • 📊 Monitorear degradación de rendimiento

  • 🎯 Detectar drift de datos

  • 📈 Comparar versiones de modelos

  • 💾 Versionar modelos automáticamente

  • 🔍 Validar mejoras antes de desplegar

Acceso al Módulo

En el sidebar, click en:

🔮 Predicción → 🔄 Reentrenamiento

¿Por Qué Reentrenar?

Razones para Reentrenar

1. Drift de Datos

Distribución de salarios cambió:

2023: Media = $4.2M
2024: Media = $4.8M (+14%)

Modelo desactualizado ⚠️

2. Degradación de Rendimiento

Accuracy en producción:

Mes 1: 95.2%
Mes 2: 94.8%
Mes 3: 93.5%
Mes 4: 91.2% ⚠️

Reentrenamiento necesario

3. Nuevos Datos Disponibles

Datos de entrenamiento:
Original: 10,000 registros
Nuevos: 5,000 registros

Total: 15,000 registros

Oportunidad de mejorar

4. Cambios en el Negocio

  • Nuevas políticas de crédito

  • Cambios regulatorios

  • Nuevos productos

Monitoreo de Modelos

Dashboard de Rendimiento

Modelo: XGBoost v2.1
Desplegado: 2024-01-01
Días en producción: 45

Métricas Actuales:
• Accuracy: 92.1% (↓ 3.1% vs baseline)
• Precision: 91.5% (↓ 3.3%)
• Recall: 92.8% (↓ 2.4%)
• F1-Score: 92.1% (↓ 2.9%)

Estado: ⚠️ Degradación detectada

Detección de Drift

Data Drift:

Variables con drift significativo:

• salario_mensual: KS-test p=0.001 ⚠️
• valor_inmueble: KS-test p=0.003 ⚠️
• puntaje_datacredito: KS-test p=0.045 ⚠️

Acción: Reentrenamiento recomendado

Concept Drift:

Relación DTI → Riesgo cambió:

Antes: Correlación = 0.68
Ahora: Correlación = 0.54

Modelo desactualizado

Alertas Automáticas

🔔 Alertas Activas:

1. Accuracy < 93% por 7 días consecutivos
2. Data drift detectado en 3 variables
3. 150 predicciones con baja confianza esta semana

Recomendación: Reentrenar inmediatamente

Proceso de Reentrenamiento

Paso 1: Preparar Nuevos Datos

[📁 Cargar Nuevos Datos]

Datos originales: 10,000
Datos nuevos: 5,000

Opciones:
○ Reemplazar datos antiguos
● Combinar con datos antiguos
○ Solo usar datos nuevos

Total para reentrenamiento: 15,000

Paso 2: Validar Calidad

[✅ Validar Nuevos Datos]

✓ Sin valores faltantes
✓ Distribuciones consistentes
✓ Sin duplicados
⚠ 12 outliers detectados (0.24%)

Calidad: Buena

Paso 3: Configurar Reentrenamiento

Estrategia de reentrenamiento:

● Reentrenar desde cero
○ Fine-tuning (transfer learning)
○ Incremental learning

Modelos a reentrenar:
☑ XGBoost
☑ LightGBM
☑ Random Forest
☐ RBM

Paso 4: Ejecutar Reentrenamiento

[🔄 Iniciar Reentrenamiento]

Reentrenando XGBoost...
Época 1/100: Loss = 0.245
Época 50/100: Loss = 0.089
Época 100/100: Loss = 0.045
✓ Completado (3m 25s)

Reentrenando LightGBM...
✓ Completado (2m 10s)

Reentrenando Random Forest...
✓ Completado (4m 05s)

Total: 9m 40s

Comparación de Versiones

Métricas Comparativas

Modelo

Versión

Accuracy

F1-Score

Cambio

XGBoost

v2.1 (old)

92.1%

92.1%

XGBoost

v2.2 (new)

95.8%

95.7%

+3.7%

LightGBM

v1.5 (old)

91.8%

91.5%

LightGBM

v1.6 (new)

95.2%

95.0%

+3.4%

Resultado: Mejora significativa en todos los modelos

Tests A/B

[🧪 Ejecutar Test A/B]

Grupo A (v2.1): 1,000 predicciones
Grupo B (v2.2): 1,000 predicciones

Resultados:
• Accuracy A: 92.3%
• Accuracy B: 95.6%
• Diferencia: +3.3% (p < 0.001)

Conclusión: v2.2 es significativamente mejor

Validación Cruzada

5-Fold Cross-Validation:

Modelo v2.1:
Folds: [92.1%, 91.8%, 92.5%, 91.9%, 92.3%]
Media: 92.1% ± 0.3%

Modelo v2.2:
Folds: [95.5%, 95.8%, 95.9%, 95.6%, 95.7%]
Media: 95.7% ± 0.2%

Mejora: +3.6% ✓

Versionado de Modelos

Sistema de Versiones

Historial de Versiones:

v2.2 (2024-02-15) ← Actual
• Accuracy: 95.8%
• Datos: 15,000
• Cambios: Reentrenamiento completo

v2.1 (2024-01-01)
• Accuracy: 95.2%
• Datos: 10,000
• Cambios: Optimización hiperparámetros

v2.0 (2023-12-01)
• Accuracy: 94.1%
• Datos: 10,000
• Cambios: Versión inicial

Metadata de Versiones

Modelo: XGBoost v2.2

Información:
• Fecha creación: 2024-02-15 10:30:00
• Autor: sistema_auto
• Datos entrenamiento: 15,000
• Datos validación: 3,000
• Tiempo entrenamiento: 3m 25s
• Hiperparámetros: {...}
• Features: 20
• Métricas: {...}
• Hash modelo: a3f5b2c...

Rollback

[⏮️ Revertir a Versión Anterior]

Versión actual: v2.2
Revertir a: v2.1

⚠️ Advertencia:
Perderás mejoras de +3.6% accuracy

¿Confirmar rollback? [Sí] [No]

Estrategias de Reentrenamiento

1. Reentrenamiento Completo

Cuándo usar:

  • Drift significativo

  • Muchos datos nuevos

  • Cambios estructurales

Ventajas:

  • Modelo completamente actualizado

  • Mejor rendimiento

Desventajas:

  • Más tiempo y recursos

  • Pierde conocimiento previo

2. Fine-Tuning

Cuándo usar:

  • Pocos datos nuevos

  • Drift moderado

  • Ajustes menores

Ventajas:

  • Rápido

  • Mantiene conocimiento previo

Desventajas:

  • Mejora limitada

3. Incremental Learning

Cuándo usar:

  • Datos continuos

  • Actualizaciones frecuentes

  • Recursos limitados

Ventajas:

  • Muy eficiente

  • Actualización continua

Desventajas:

  • No todos los algoritmos lo soportan

Automatización

Reentrenamiento Programado

[⏰ Configurar Reentrenamiento Automático]

Frecuencia: ● Mensual ○ Semanal ○ Diario
Día: 1 de cada mes
Hora: 02:00 AM

Condiciones:
☑ Solo si accuracy < 94%
☑ Solo si hay > 1,000 datos nuevos
☑ Notificar por email

[💾 Guardar Configuración]

Triggers Automáticos

Triggers configurados:

1. Accuracy < 93% por 5 días
   → Reentrenar automáticamente

2. Data drift detectado
   → Notificar y sugerir reentrenamiento

3. 5,000 nuevos datos acumulados
   → Reentrenar automáticamente

Pipeline CI/CD

Pipeline de Reentrenamiento:

1. Detectar trigger
2. Validar nuevos datos
3. Reentrenar modelos
4. Validar mejora (>2%)
5. Test A/B (1 semana)
6. Desplegar si exitoso
7. Monitorear rendimiento

Casos de Uso

Caso 1: Reentrenamiento Mensual

Actualización rutinaria con datos del mes.

Caso 2: Reentrenamiento de Emergencia

Degradación crítica detectada, reentrenar inmediatamente.

Caso 3: Reentrenamiento por Cambio Regulatorio

Nueva ley requiere actualizar criterios de riesgo.

Tips y Mejores Prácticas

Haz:

  • Monitorea rendimiento continuamente

  • Versiona todos los modelos

  • Valida mejoras antes de desplegar

  • Mantén datos de entrenamiento históricos

  • Documenta cambios

Evita:

  • Reentrenar sin validar mejora

  • Desplegar sin test A/B

  • Perder versiones anteriores

  • Ignorar drift de datos

  • Reentrenar demasiado frecuentemente

Troubleshooting

Problema: Modelo nuevo peor que anterior

Solución: Rollback y revisar datos nuevos.

Problema: Reentrenamiento muy lento

Solución: Usa menos datos o algoritmo más rápido.

Problema: Drift no detectado

Solución: Ajusta umbrales de detección.

Próximos Pasos

Después de reentrenar:

  1. Predecir: 9. Predicción de Riesgo

  2. Aprender: 11. Sistema RAG Educativo

  3. Monitorear: Continuar vigilando rendimiento

¡Modelos actualizados y optimizados! 🔄