La Evaluación de Modelos como Herramienta Financiera

Objetivos de Aprendizaje

Al finalizar este capítulo, serás capaz de:

Profundizar la Matriz de Confusión más allá de la exactitud y conectar cada celda con un costo operativo real
Demostrar numéricamente la Paradoja de la Exactitud y sus consecuencias en decisiones de negocio
Construir e interpretar la Curva ROC y la Curva Precision–Recall, y elegir cuál es apropiada según el contexto
Traducir la Matriz de Confusión en un Estado de Resultados financiero para comparar modelos en términos de valor monetario
Construir tablas de deciles y gráficos de Ganancia Acumulada (Cumulative Gain) y Elevación (Lift)
Trazar una Curva de Beneficio (Profit Curve) y encontrar el umbral óptimo de decisión

Introducción: La Ilusión de la Exactitud

En el Capítulo 2 introdujimos la Matriz de Confusión y las métricas derivadas: Accuracy, Precision, Recall y F1-Score. También presentamos la Curva ROC como herramienta de evaluación visual. Ese capítulo nos equipó con el vocabulario esencial.

Sin embargo, conocer el vocabulario no es suficiente. En ese capítulo respondimos la pregunta “¿qué tan preciso es el modelo?”. En este capítulo responderemos una pregunta mucho más relevante para la organización: “¿cuánto dinero genera o ahorra este modelo?”

El Escenario que Cambia Todo

Imagina que eres analista en un banco. Tu equipo ha entrenado un modelo de detección de fraude y llega a la reunión de directivos con una sonrisa y el siguiente resultado:

“Nuestro nuevo modelo tiene una exactitud (Accuracy) del 99.9%.”

Los directivos aplauden. El presupuesto se aprueba. El modelo se despliega en producción.

Seis meses después, el banco descubre que sus pérdidas por fraude no han cambiado. El modelo, con toda su exactitud, era inútil.

¿Qué salió mal? El modelo aprendió a predecir siempre “no es fraude”, porque el fraude representa solo el 0.1% de las transacciones. Un modelo que nunca hace nada tiene el 99.9% de exactitud en este contexto, porque el 99.9% de los casos son legítimos.

La Pregunta del Capítulo

¿Cómo elegimos el modelo correcto cuando el negocio tiene costos asimétricos?

La respuesta requiere ir más allá de las métricas estadísticas y construir un puente directo entre el desempeño del modelo y el estado de resultados de la empresa.

Repaso Profundo: La Matriz de Confusión

Las Cuatro Celdas Revisadas

En el Capítulo 2 presentamos la tabla de forma compacta. Ahora la analizamos desde la perspectiva operativa:

	Real: Negativo	Real: Positivo
Predicho: Negativo	Verdadero Negativo (TN)	Falso Negativo (FN)
Predicho: Positivo	Falso Positivo (FP)	Verdadero Positivo (TP)

Recordatorio de la notación:

TP (Verdadero Positivo): El modelo predijo “positivo” y tenía razón.
TN (Verdadero Negativo): El modelo predijo “negativo” y tenía razón.
FP (Falso Positivo): El modelo predijo “positivo” pero estaba equivocado.
FN (Falso Negativo): El modelo predijo “negativo” pero estaba equivocado.

¿Cuándo Es Más Caro Cada Error?

La clave del análisis financiero es que los dos tipos de error tienen costos radicalmente distintos dependiendo del contexto. No existe una respuesta universal.

¿Cuándo es más caro el Falso Negativo (FN)?

El FN es costoso cuando no detectar un evento positivo tiene consecuencias graves:

Fraude bancario: No detectar una transacción fraudulenta significa absorber la pérdida completa, que puede ser de miles de pesos.
Diagnóstico médico de cáncer: No detectar un tumor maligno en etapa temprana puede costar la vida del paciente.
Detección de fallas industriales: No detectar que una pieza está próxima a fallar puede causar un paro de producción que cuesta millones.

En estos contextos, el negocio prefiere errar hacia la precaución: aceptar más FP con tal de minimizar los FN.

¿Cuándo es más caro el Falso Positivo (FP)?

El FP es costoso cuando activar el mecanismo de intervención tiene un precio alto:

Campañas de marketing de lujo: Contactar a un prospecto no calificado para una tarjeta de crédito Platinum genera costos de adquisición (llamada, folleto, tiempo del ejecutivo) sin posibilidad de conversión, y puede dañar la percepción de marca.
Alertas de spam agresivas: Filtrar como spam un correo legítimo puede hacer que un cliente pierda información importante, deteriorando la relación.
Alertas médicas quirúrgicas: Realizar una cirugía innecesaria tiene costos humanos y financieros altísimos.

Métricas Derivadas: Fórmulas y Ejemplo de Negocio

Usaremos el mismo escenario de Churn de telecomunicaciones a lo largo del capítulo. Supongamos que evaluamos nuestro modelo en un conjunto de prueba de 1,000 clientes:

Resultado	Cantidad
TP	80
TN	840
FP	60
FN	20
Total	1,000

Con estos datos, calculemos todas las métricas:

Accuracy (Exactitud)

\[\text{Accuracy} = \frac{TP + TN}{Total} = \frac{80 + 840}{1{,}000} = \frac{920}{1{,}000} = 92\%\]

Interpretación: El modelo acierta en el 92% de los casos. Parece muy bueno. Pero no nos dice nada sobre si estamos perdiendo clientes valiosos.

Precision (Precisión)

\[\text{Precision} = \frac{TP}{TP + FP} = \frac{80}{80 + 60} = \frac{80}{140} \approx 57.1\%\]

Interpretación: De cada 100 clientes a quienes le enviamos una oferta de retención, solo 57 realmente iban a irse. El 43% restante era desperdicio de presupuesto de retención.

Recall (Sensibilidad / Tasa de Detección)

\[\text{Recall} = \frac{TP}{TP + FN} = \frac{80}{80 + 20} = \frac{80}{100} = 80\%\]

Interpretación: Detectamos el 80% de los clientes que realmente iban a irse. El 20% restante (20 clientes) se fue sin que los detectáramos.

Specificity (Especificidad)

\[\text{Specificity} = \frac{TN}{TN + FP} = \frac{840}{840 + 60} = \frac{840}{900} \approx 93.3\%\]

Interpretación: Del total de clientes leales, identificamos correctamente al 93.3%. Solo el 6.7% fue mal catalogado como “en riesgo”.

F1-Score

El F1-Score es la media armónica de Precision y Recall. Penaliza fuertemente cuando cualquiera de los dos valores es muy bajo:

\[F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} = 2 \times \frac{0.571 \times 0.80}{0.571 + 0.80} \approx 0.667\]

Interpretación: Un F1 de 0.667 (66.7%) nos da una visión más honesta del modelo que el 92% de Accuracy. Es la métrica más usada cuando los datos están desbalanceados y no hay costos definidos.

Tabla Resumen de Métricas

Métrica	Fórmula	Nuestro Modelo	Pregunta que Responde
Accuracy	$(TP+TN)/Total$	92.0%	¿Qué porcentaje de predicciones son correctas?
Precision	$TP/(TP+FP)$	57.1%	¿Cuánto confiar cuando el modelo dice “positivo”?
Recall	$TP/(TP+FN)$	80.0%	¿Qué fracción de positivos reales capturamos?
Specificity	$TN/(TN+FP)$	93.3%	¿Qué fracción de negativos reales identificamos?
F1-Score	$2 \cdot P \cdot R / (P+R)$	66.7%	¿Cuál es el balance entre Precision y Recall?

La Paradoja de la Exactitud (Accuracy Paradox)

La Demostración Numérica

Consideremos ahora un escenario más extremo: detección de fraude en tarjetas de crédito. Supongamos que de cada 10,000 transacciones, solo 10 son fraudulentas (0.1% de positividad).

El “Modelo Ingenuo”: Un modelo que simplemente predice “no es fraude” para cada transacción.

Su matriz de confusión sería:

	Real: Legítima	Real: Fraude
Predicho: Legítima	TN = 9,990	FN = 10
Predicho: Fraude	FP = 0	TP = 0

Calculemos sus métricas:

\[\text{Accuracy} = \frac{0 + 9{,}990}{10{,}000} = 99.9\%\]

\[\text{Precision} = \frac{0}{0 + 0} = \text{indefinida (0/0)}\]

\[\text{Recall} = \frac{0}{0 + 10} = 0\%\]

\[F1 = 0\]

El resultado es un modelo con 99.9% de exactitud que no detecta un solo fraude. Es el peor modelo de detección de fraude posible, y aun así la métrica de Accuracy lo hace parecer excepcional.

Conclusión: Accuracy en Clases Desbalanceadas

La exactitud es una métrica inútil y potencialmente peligrosa cuando:

Las clases están altamente desbalanceadas (una clase es mucho más frecuente que la otra)
Los costos de los errores son asimétricos (un tipo de error es mucho más costoso que el otro)

Esto ocurre en prácticamente todos los casos de alto valor en negocios: fraude, detección de enfermedades, fallas industriales, abandono de clientes premium.

Técnicas de Mitigación

Técnica	Descripción	Cuándo Usar
SMOTE	Genera sintéticamente nuevas instancias de la clase minoritaria	Cuando el desbalance es severo (>10:1)
Class Weights	Penaliza más al modelo por errores en la clase minoritaria durante el entrenamiento	Ajuste simple y efectivo para la mayoría de casos
Ajuste de Umbral	Modifica el umbral de decisión de 0.5 a un valor que optimice la métrica financiera	Cuando se conocen los costos de los errores

En este capítulo nos enfocaremos principalmente en el ajuste de umbral, ya que es la técnica más directamente conectada al análisis financiero.

El Trade-off Precision–Recall y la Curva ROC en Profundidad

El Umbral Como Perilla de Control

En el Capítulo 2 establecimos que la Regresión Logística produce una probabilidad, no directamente una etiqueta. Para convertirla en una decisión binaria, aplicamos un umbral $t$:

\[\hat{y} = \begin{cases} 1 & \text{si } P(\text{Churn}) \geq t \\ 0 & \text{si } P(\text{Churn}) < t \end{cases}\]

Al variar $t$ de 0 a 1, obtenemos distintos puntos en el espacio Recall–Precision y Recall–FPR (Tasa de Falsos Positivos). Esto es precisamente lo que construyen las curvas ROC y Precision–Recall.

La Curva ROC en Detalle

Construcción Punto a Punto

La Curva ROC (Receiver Operating Characteristic) se construye graficando, para cada umbral posible:

Eje Y: Recall = $TP / (TP + FN)$ (también llamado Sensibilidad o Tasa de Verdaderos Positivos)
Eje X: FPR = $FP / (FP + TN)$ (Tasa de Falsos Positivos)

Umbral $t$	TP	FP	FN	TN	Recall	FPR
0.9	10	2	90	898	10%	0.22%
0.7	45	15	55	885	45%	1.67%
0.5	80	60	20	840	80%	6.67%
0.3	95	150	5	750	95%	16.7%
0.1	100	400	0	500	100%	44.4%

Cada fila es un punto en la curva ROC. El umbral se convierte en una palanca que desplaza el punto a lo largo de la curva.

AUC: El Área Bajo la Curva

El AUC (Area Under the Curve) resume toda la curva en un único número entre 0 y 1.

\[\text{AUC} = \int_0^1 \text{Recall}(\text{FPR}) \, d(\text{FPR})\]

Pero antes de quedarnos con la fórmula, construyamos la intuición paso a paso.

Paso 1 — La analogía del médico que ordena expedientes

El modelo no toma una decisión final: hace algo más humilde. Ordena a los clientes de mayor a menor riesgo de irse, como un médico que revisa 100 expedientes y los apila de “más urgente” a “menos urgente” antes de que llegue el turno. La pregunta es: ¿qué tan bueno es ese orden?

Trasladando esto al caso de Churn: el modelo revisa los 1,000 clientes del conjunto de prueba y los coloca en una fila, del que tiene mayor probabilidad de irse al que tiene menor. El equipo de retención solo puede llamar a los primeros 200. La pregunta no es “¿acertó el modelo en cada caso?”, sino “¿puso a los clientes que realmente se iban al frente de la fila?”

Paso 2 — Pintar los expedientes

Imagina que pintamos de naranja los expedientes de los clientes que sí se fueron, y de azul los que se quedaron. Un modelo perfecto dejaría todos los naranjas en la parte superior de la pila y todos los azules en la inferior, sin ninguna mezcla. Un modelo inútil los mezclaría completamente al azar.

Los histogramas a continuación muestran exactamente esa mezcla: la distribución de probabilidades predichas para cada clase. Mucho traslape entre las dos campanas significa que el modelo confunde frecuentemente a churners con clientes leales. Poca mezcla significa que los separa bien.

Distribuciones de probabilidad por clase

Paso 3 — El duelo aleatorio (definición precisa)

Ahora podemos dar una definición exacta sin integrales:

AUC = si tomas al azar un cliente naranja (churner real) y uno azul (cliente leal), ¿cuál es la probabilidad de que el modelo le haya asignado una probabilidad más alta al naranja?

AUC = 0.87 significa que en 87 de cada 100 duelos, el modelo rankea correctamente al churner por encima del cliente leal. AUC = 0.50 significa que el modelo no distingue entre ambos — equivale a lanzar una moneda.

Valor de AUC	Interpretación
1.00	Clasificador perfecto: todos los positivos rankeados encima de todos los negativos
0.90–0.99	Excelente: modelo muy discriminante
0.70–0.89	Aceptable: rango típico en problemas reales de negocio
0.60–0.69	Mediocre: mejor que el azar, pero apenas
0.50	Aleatorio: el modelo no distingue entre clases
< 0.50	Peor que el azar (posiblemente las clases están invertidas)

La Curva Precision–Recall

Por Qué el ROC-AUC Puede Engañarnos

Antes de presentar la alternativa, hay que entender cuándo el ROC-AUC falla. El problema está en el denominador del FPR:

\[\text{FPR} = \frac{FP}{FP + TN}\]

Cuando la clase negativa es enorme, $TN$ es un número gigante. Eso hace que incluso cientos de FP parezcan insignificantes.

Ejemplo numérico: detección de fraude con 9,900 transacciones legítimas y 100 fraudulentas. Si el modelo genera 500 alarmas falsas:

\[\text{FPR} = \frac{500}{500 + 9{,}400} = 5.1\%\]

La curva ROC apenas se mueve hacia la derecha. Se ve bien. Pero en la práctica, el equipo antifraude está investigando 500 casos falsos por cada 100 reales — una pesadilla operativa que el ROC-AUC oculta.

La Precision lo captura de inmediato porque su denominador es pequeño:

\[\text{Precision} = \frac{TP}{TP + FP}\]

Cada FP pesa directamente, sin importar cuántos negativos haya en el dataset.

La siguiente figura muestra el mismo punto de operación (TP=80, FP=500, Recall=80%) visto desde ambas curvas. En el ROC el punto apenas se aleja del eje Y. En el PR queda al descubierto: el 86% de las alarmas son falsas.

La Analogía del Buscador de Agujas

El ROC-AUC mide qué tan bien el modelo rankea: ¿pone las agujas antes que la paja en la fila? El PR-AUC mide algo distinto: qué tan bien el modelo encuentra las agujas en el pajar.

Cuando el pajar es enorme, saber que el modelo “rankea bien” es de poco consuelo si al revisar el top 10% de la lista igual encuentras más paja que agujas. Precision captura exactamente eso: de todo lo que el modelo señaló como aguja, ¿cuánto era realmente aguja?

La Curva y su Resumen Numérico

La Curva Precision–Recall grafica:

Eje Y: Precision = $TP / (TP + FP)$
Eje X: Recall = $TP / (TP + FN)$

Se resume con el PR-AUC (también llamado Average Precision): el área bajo esta curva. A diferencia del ROC-AUC, cuya línea base es siempre 0.50, la línea base del PR-AUC depende de la tasa de positividad del dataset — si solo el 5% de los casos son positivos, un modelo aleatorio tiene PR-AUC ≈ 0.05.

La Pregunta que Cada Curva Responde

Curva	Pregunta que responde
ROC-AUC	¿Rankea bien el modelo a los positivos sobre los negativos?
PR-AUC	Cuando el modelo dice “positivo”, ¿cuánto podemos confiar en eso?

¿Cuándo Usar ROC-AUC vs. PR-AUC?

Situación	Métrica Recomendada
Clases balanceadas (50/50 aproximadamente)	ROC-AUC
Clases desbalanceadas, importa el desempeño en la clase minoritaria	PR-AUC
Comparar modelos para una presentación ejecutiva	ROC-AUC (más conocida)
Fraude, detección médica, churn con baja tasa	PR-AUC

La Matriz de Confusión como Estado de Resultados

Esta es la transformación central del capítulo. Vamos a dejar de pensar en la Matriz de Confusión como una tabla estadística y comenzar a verla como un estado de resultados financiero.

El Modelo de Costos

En el contexto de retención de clientes (Churn), definamos los parámetros financieros:

LTV (Lifetime Value): Valor presente del ingreso neto que un cliente genera durante su ciclo de vida. Supongamos $LTV = \$5{,}000$ pesos por cliente.
$C_{retención}$: Costo de la acción de retención (llamada del equipo, descuento ofrecido, etc.). Supongamos $C = \$200$ pesos.

La Tabla de Valor Financiero

Predicción Realidad	Positivo (Se va)	Negativo (Se queda)
Positivo (Predicho)	TP: $+(LTV - C_{retención})$	FP: $-C_{retención}$
Negativo (Predicho)	FN: $-LTV$	TN: $\$0$

Interpretación de cada celda:

TP: Detectamos a un cliente que se iba a ir y lo retuvimos. Ganamos su LTV pero pagamos el costo de retención. Beneficio neto = $\$5{,}000 - \$200 = \$4{,}800$
FP: Contactamos a un cliente que no se iba a ir. Gastamos el costo de retención innecesariamente. Pérdida = $-\$200$
FN: El cliente se fue sin que lo detectáramos. Perdemos todo su LTV futuro. Pérdida = $-\$5{,}000$
TN: Cliente leal que no contactamos. Sin costo ni ganancia. = $\$0$

La Esperanza Matemática del Beneficio

Con esta estructura, el beneficio esperado total del modelo es:

\[E[\text{Beneficio}] = TP \times (LTV - C) + FP \times (-C) + FN \times (-LTV) + TN \times 0\]

Ejemplo Numérico Completo

Tomemos nuestros dos modelos hipotéticos, ambos con el mismo dataset de 1,000 clientes (100 churners reales) pero con matrices de confusión distintas:

Modelo A (optimizado para Accuracy):

Resultado	Cantidad
TP	60
TN	870
FP	30
FN	40

Accuracy: $(60 + 870)/1{,}000 = 93\%$
F1-Score: $\approx 0.67$

\[E[\text{Beneficio}_A] = 60 \times \$4{,}800 + 30 \times (-\$200) + 40 \times (-\$5{,}000) + 870 \times \$0\]

\[= \$288{,}000 - \$6{,}000 - \$200{,}000 = \$82{,}000\]

Modelo B (optimizado para F1 con mayor Recall):

Resultado	Cantidad
TP	82
TN	818
FP	82
FN	18

Accuracy: $(82 + 818)/1{,}000 = 90\%$ ← ¡Menor!
F1-Score: $\approx 0.67$

\[E[\text{Beneficio}_B] = 82 \times \$4{,}800 + 82 \times (-\$200) + 18 \times (-\$5{,}000) + 818 \times \$0\]

\[= \$393{,}600 - \$16{,}400 - \$90{,}000 = \$287{,}200\]

Comparación Final

Métrica	Modelo A	Modelo B	Diferencia
Accuracy	93%	90%	A gana por 3 pp
F1-Score	0.67	0.67	Empate
Beneficio Esperado	$82,000	$287,200	B gana por $205,200

Lección crítica: El Modelo B tiene menor exactitud pero genera 3.5 veces más valor financiero. Elegir por Accuracy habría costado a la empresa $205,200 pesos por cada ciclo de campaña.

Análisis de Deciles y Curva de Ganancia Acumulada

Hasta ahora evaluamos el modelo con un umbral fijo. Ahora adoptamos una perspectiva de priorización de recursos: si no podemos contactar a todos los clientes en riesgo, ¿a cuáles deberíamos contactar primero?

Construcción de la Tabla de Deciles

El procedimiento es el siguiente:

Aplicar el modelo y obtener la probabilidad de Churn $P(\text{Churn}_i)$ para cada cliente.
Ordenar a todos los clientes de mayor a menor probabilidad predicha.
Dividir la lista en 10 grupos iguales (deciles), donde el Decil 1 contiene el 10% con mayor probabilidad.
Para cada decil, contar cuántos churners reales contiene.

Tabla de Deciles — Telco Churn (1,000 clientes, 100 churners reales)

Decil	Rango de Prob.	Clientes	Churners en Decil	% Churners en Decil	Churners Acum.	% Acum. Capturado
1	0.90 – 1.00	100	40	40%	40	40%
2	0.70 – 0.90	100	25	25%	65	65%
3	0.50 – 0.70	100	15	15%	80	80%
4	0.35 – 0.50	100	8	8%	88	88%
5	0.25 – 0.35	100	5	5%	93	93%
6	0.15 – 0.25	100	3	3%	96	96%
7	0.08 – 0.15	100	2	2%	98	98%
8	0.04 – 0.08	100	1	1%	99	99%
9	0.01 – 0.04	100	1	1%	100	100%
10	0.00 – 0.01	100	0	0%	100	100%

La Curva de Ganancia Acumulada (Cumulative Gain Chart)

La Curva de Ganancia Acumulada grafica:

Eje X: % de la población contactada (en orden descendente de probabilidad)
Eje Y: % de churners reales capturados

Dos curvas se grafican juntas:

Curva del Modelo: Construida con la tabla anterior
Línea Base (Aleatoria): Si contactáramos al azar, cada 10% de la población capturaría exactamente el 10% de los churners

Lectura práctica: Si contactamos solo al 30% más riesgoso (los tres primeros deciles), capturamos el 80% de todos los churners. Si eligiéramos clientes al azar, necesitaríamos contactar al 80% de la base para lograr lo mismo.

La distancia vertical entre la curva del modelo y la línea base mide el valor del modelo: más separación equivale a mayor eficiencia.

El Gráfico de Elevación (Lift Chart)

Definición de Lift

El Lift mide cuánto mejor que el azar es el modelo en un decil específico:

\[\text{Lift}_{decil} = \frac{\% \text{ de churners en el decil}}{\% \text{ de churners en la población total}}\]

En nuestro ejemplo, la tasa base de churn es $100/1{,}000 = 10\%$.

Tabla de Lift por Decil

Decil	Churners en Decil	% Churners en Decil	Lift = % Decil / % Base	Lift Acum.
1	40	40%	40% / 10% = 4.0x	4.0x
2	25	25%	25% / 10% = 2.5x	3.25x
3	15	15%	15% / 10% = 1.5x	2.67x
4	8	8%	8% / 10% = 0.8x	2.2x
5–10	12 (total)	Decreciente	< 1x	—

Interpretación para Decisiones de Negocio

El Lift del primer decil es 4.0x. Esto significa:

“Si contactamos al 10% de clientes con mayor probabilidad de irse, encontraremos cuatro veces más churners de los que encontraríamos contactando al azar.”

El Lift acumulado de los tres primeros deciles es 2.67x, lo que quiere decir:

“Contactando al 30% de la base (los más riesgosos), el modelo es 2.67 veces más eficiente que una selección aleatoria.”

Este número es el que se lleva a la dirección financiera para justificar la inversión en el modelo. La pregunta ejecutiva es: “¿Cuánto valen esas 2.67 veces de eficiencia en términos del presupuesto de retención?”

Curvas de Beneficio (Profit Curves)

La Herramienta Culminante

Las curvas de Lift y Ganancia responden: “¿A quiénes debo contactar primero?”

La Curva de Beneficio responde la pregunta definitiva: “¿Cuál es el umbral de decisión que maximiza el beneficio total de la campaña?”

Construcción

Para cada umbral $t$ posible entre 0 y 1:

Clasificar a cada cliente como “en riesgo” si $P(\text{Churn}_i) \geq t$ y “seguro” en caso contrario.
Con esa clasificación, construir la Matriz de Confusión correspondiente.
Calcular el Beneficio Esperado:

\[\text{Beneficio}(t) = TP(t) \times (LTV - C) + FP(t) \times (-C) + FN(t) \times (-LTV)\]

Graficar:
- Eje X: Umbral $t$ (de 0 a 1)
- Eje Y: Beneficio total esperado en pesos

La Curva Tiene Forma de Montaña

Umbral muy bajo ($t \approx 0$): Contactamos a todos los clientes. Muchos FP; el costo de retención disperso supera el beneficio.
Umbral muy alto ($t \approx 1$): Solo contactamos a los casi-seguros. Pocos FP pero también pocos TP; perdemos muchos churners.
Umbral óptimo ($t^*$): El punto que maximiza la curva, donde el beneficio marginal de contactar a un cliente adicional es exactamente cero.

El umbral óptimo casi nunca es $t = 0.5$. En contextos donde el LTV es muy alto relativo al costo de retención, el umbral óptimo suele ser más bajo (más agresivo), porque vale la pena asumir más FP para no perder churners.

La fórmula analítica del umbral óptimo, cuando los costos son constantes, es:

\[t^* = \frac{C}{LTV}\]

En nuestro ejemplo: $t^* = \$200 / \$5{,}000 = 0.04$

Esto significa que debería intervenir con cualquier cliente que tenga más del 4% de probabilidad de irse. A ese LTV y ese costo, la apuesta financiera es favorable.

Resumen y Conexión con el Siguiente Módulo

Tabla Resumen: Cuándo Usar Cada Herramienta

Herramienta / Métrica	Úsala cuando…	Evítala cuando…
Accuracy	Clases balanceadas, costos simétricos	Clases desbalanceadas o costos asimétricos
Precision	El costo de FP es alto (campañas de lujo, alertas costosas)	El costo de FN supera ampliamente al de FP
Recall	El costo de FN es alto (fraude, diagnóstico médico)	El presupuesto de intervención es muy limitado
F1-Score	No hay información de costos y las clases están desbalanceadas	Se conocen los costos; en ese caso, usar el beneficio esperado
ROC-AUC	Comparar modelos globalmente, clases moderadamente balanceadas	Clases muy desbalanceadas (usar PR-AUC en su lugar)
PR-AUC	Fraude, churn de nicho, detección médica (clases muy desbalanceadas)	Clases balanceadas (ROC-AUC es más interpretable)
Beneficio Esperado	Se conocen LTV, costos, siempre que se pueda cuantificar el valor	Cuando los costos son inciertos o muy variables
Lift / Gain Chart	Optimizar presupuestos de campaña, priorizar intervenciones	Cuando se puede contactar al 100% de la base (sin restricción)
Profit Curve	Definir el umbral óptimo de decisión para maximizar valor financiero	Cuando los costos son inciertos

Los Tres Aprendizajes Clave del Capítulo

La Accuracy miente en contextos reales: El 99.9% de los problemas de negocio de alto impacto involucran clases desbalanceadas. Usar Accuracy como métrica principal es una garantía de tomar decisiones subóptimas.
El umbral de decisión no es 0.5: El umbral óptimo lo determina la relación entre el costo de retención y el valor de un cliente, no una convención estadística. La fórmula $t^* = C / LTV$ da una primera aproximación analítica.
Dos modelos con igual AUC pueden tener beneficios financieros radicalmente distintos: Lo que importa no es el área bajo la curva sino el valor del punto específico de la curva donde operamos en producción.

Conexión con el Siguiente Capítulo

Ahora que tenemos las herramientas para evaluar cualquier modelo de clasificación en términos financieros, estamos listos para aprender nuevos modelos que podremos evaluar con exactamente este mismo framework.

El Capítulo 4 introduce los Árboles de Decisión: modelos que, a diferencia de la Regresión Logística, no asumen ninguna forma funcional para separar las clases. Son completamente interpretables, soportan relaciones no lineales y producen reglas de negocio en lenguaje casi natural.

Aplicaremos las Curvas de Beneficio y los Lift Charts del Capítulo 3 para comparar si un Árbol de Decisión supera a la Regresión Logística en el caso de Churn, cerrando el ciclo entre modelado, evaluación y valor de negocio.