supervised_models

Descripción General

Módulo de entrenamiento y evaluación de múltiples modelos de clasificación de riesgo crediticio con integración de características RBM y optimización de hiperparámetros.

Clases Principales

SupervisedModelTrainer

Métodos de Preparación

prepare_data

Prepara datos para entrenamiento con división estratificada.

Parameters:

df (DataFrame): DataFrame con datos
target_col (str): Variable objetivo (default: “nivel_riesgo”)
test_size (float): Proporción para testing (default: 0.2)
holdout_size (float): Proporción para holdout (default: 0.1)

Returns:

True si exitoso

División de datos:

70% Entrenamiento (con validación cruzada 5-fold)
20% Testing (evaluación final)
10% Holdout (simulación de producción)

Ejemplo:

success = trainer.prepare_data(
    df,
    target_col='nivel_riesgo',
    test_size=0.2,
    holdout_size=0.1
)

if success:
    print(f"Train: {trainer.X_train.shape}")
    print(f"Test: {trainer.X_test.shape}")
    print(f"Holdout: {trainer.X_holdout.shape}")
    print(f"Características: {len(trainer.feature_names)}")

Métodos de Entrenamiento

train_model

Entrena un modelo específico con optimización opcional.

Parameters:

model_key (str): Clave del modelo (“logistic”, “random_forest”, “xgboost”, etc.)
use_grid_search (bool): Si usar búsqueda de hiperparámetros (default: True)

Returns:

Diccionario con resultados del entrenamiento

Proceso:

Cargar configuración del modelo
GridSearchCV si use_grid_search=True
Entrenar con mejores parámetros
Calcular métricas completas
Guardar modelo y métricas

Ejemplo:

# Entrenar con optimización
results = trainer.train_model('xgboost', use_grid_search=True)

print(f"Mejores parámetros: {results['best_params']}")
print(f"Accuracy: {results['metrics']['accuracy']:.4f}")
print(f"F1-Score: {results['metrics']['f1_weighted']:.4f}")
print(f"ROC-AUC: {results['metrics']['roc_auc']:.4f}")

train_all_models

Entrena todos los modelos seleccionados.

Parameters:

selected_models (List[str]): Lista de modelos a entrenar
use_grid_search (bool): Si usar optimización (default: True)

Returns:

Diccionario con resultados de todos los modelos

Ejemplo:

# Entrenar múltiples modelos
models_to_train = ['logistic', 'random_forest', 'xgboost', 'lightgbm']

all_results = trainer.train_all_models(
    selected_models=models_to_train,
    use_grid_search=True
)

# Comparar resultados
for model_key, results in all_results.items():
    print(f"{model_key}:")
    print(f"  Accuracy: {results['metrics']['accuracy']:.4f}")
    print(f"  F1-Score: {results['metrics']['f1_weighted']:.4f}")

Métodos de Evaluación

_calculate_metrics

Calcula métricas de evaluación completas.

Métricas calculadas:

Accuracy: Precisión global
Precision: Macro y weighted
Recall: Macro y weighted
F1-Score: Macro y weighted
Cohen’s Kappa: Acuerdo ajustado por azar
Matthews Correlation: Correlación de Matthews
ROC-AUC: Área bajo curva ROC
Confusion Matrix: Matriz de confusión
Classification Report: Reporte detallado por clase

Ejemplo:

from sklearn.metrics import classification_report

# Las métricas se calculan automáticamente
metrics = results['metrics']

print(f"Accuracy: {metrics['accuracy']:.4f}")
print(f"Precision (weighted): {metrics['precision_weighted']:.4f}")
print(f"Recall (weighted): {metrics['recall_weighted']:.4f}")
print(f"F1-Score (weighted): {metrics['f1_weighted']:.4f}")
print(f"Cohen's Kappa: {metrics['cohen_kappa']:.4f}")
print(f"ROC-AUC: {metrics['roc_auc']:.4f}")

# Matriz de confusión
print("\nMatriz de Confusión:")
print(metrics['confusion_matrix'])

# Reporte por clase
print("\nReporte de Clasificación:")
for class_name, class_metrics in metrics['classification_report'].items():
    if isinstance(class_metrics, dict):
        print(f"{class_name}: {class_metrics}")

Métodos de Visualización

create_comparison_visualizations

Crea visualizaciones comparativas de múltiples modelos.

Parameters:

results (Dict): Resultados de múltiples modelos

Returns:

Diccionario con figuras de Plotly

Visualizaciones:

model_comparison: Barras comparativas de métricas
roc_curves: Curvas ROC superpuestas

create_confusion_matrix_plot

Crea visualización de matriz de confusión.

Parameters:

model_key (str): Clave del modelo
results (Dict): Resultados del modelo

Returns:

Figura de Plotly con heatmap

Funciones de Renderizado

render_supervised_models

Renderiza el módulo completo de modelos supervisados en Streamlit.