Metodología CRISP-DM

Objetivos de Aprendizaje

Al finalizar este capítulo, serás capaz de:

Comprender la importancia de una metodología estándar en proyectos de ciencia de datos
Identificar y aplicar las seis fases del modelo CRISP-DM
Reconocer la naturaleza iterativa y no lineal de los proyectos de datos
Relacionar objetivos de negocio con objetivos técnicos de minería de datos
Aplicar CRISP-DM en casos reales de regresión, clasificación y clusterización

Introducción: La Necesidad de una Metodología Estándar

El Problema de la Fragmentación

Antes de la llegada de CRISP-DM a finales de los años 90, la minería de datos era un campo caótico. Las organizaciones abordaban los problemas analíticos de manera ad hoc, dependiendo excesivamente de la intuición de expertos individuales. Esta falta de estandarización resultaba en:

Proyectos no replicables: El conocimiento se perdía con la rotación del personal
Altas tasas de fracaso: No por deficiencias algorítmicas, sino por desconexión entre objetivos de negocio y ejecución técnica
Costos excesivos: Sin un proceso claro, los equipos repetían errores conocidos
Falta de comunicación: Los técnicos y los ejecutivos “hablaban lenguajes diferentes”

¿Qué es CRISP-DM?

CRISP-DM (Cross-Industry Standard Process for Data Mining) es el proceso estándar de la industria cruzada para la minería de datos. Fue diseñado para ser:

Agnóstico a la industria: Aplicable en retail, banca, telecomunicaciones, salud, etc.
Independiente de herramientas: Funciona con Python, R, SAS, o cualquier stack tecnológico
Orientado al negocio: Coloca el “Entendimiento del Negocio” como piedra angular
Iterativo: Permite ciclos de retroalimentación y ajustes continuos

Las Seis Fases de CRISP-DM

El modelo se estructura en seis fases interconectadas. Es fundamental entender que aunque se presentan secuencialmente, la dinámica real es cíclica y bidireccional.

┌─────────────────────────────────────────────────────┐
│                                                     │
│  1. Entendimiento del Negocio                       │
│     ↓ ↑                                             │
│  2. Entendimiento de los Datos                      │
│     ↓ ↑                                             │
│  3. Preparación de los Datos (60-80% del tiempo)    │
│     ↓ ↑                                             │
│  4. Modelado                                        │
│     ↓ ↑                                             │
│  5. Evaluación                                      │
│     ↓ ↑                                             │
│  6. Despliegue                                      │
│     ↓                                               │
│  [Retorno a cualquier fase según necesidad]         │
│                                                     │
└─────────────────────────────────────────────────────┘

Fase 1: Entendimiento del Negocio

Esta es la fase más crítica y diferenciadora de CRISP-DM.

Actividades Principales

Determinación de Objetivos de Negocio
- ¿Qué dolor empresarial estamos aliviando?
- ¿Qué oportunidad estamos capturando?
- Ejemplo: “Reducir el inventario obsoleto en un 15%” o “Aumentar la tasa de retención de clientes en un 10%”
Evaluación de la Situación
- Inventario de recursos disponibles
- Identificación de restricciones legales (GDPR, privacidad)
- Análisis de riesgos y contingencias
- Evaluación del apetito de riesgo organizacional
Traducción a Objetivos de Minería de Datos
- Convertir objetivos de negocio en objetivos técnicos medibles
- Ejemplo: “Reducir el fraude” → “Desarrollar un modelo de clasificación binaria con precisión mínima del 95% y tasa de falsos positivos inferior al 1%”

Entregables Clave

Documento de objetivos del proyecto
Evaluación de recursos y restricciones
Análisis costo-beneficio preliminar
Plan de proyecto con criterios de éxito

Fase 2: Entendimiento de los Datos

Esta fase actúa como un filtro de viabilidad técnica. No importa qué tan brillante sea la idea de negocio si los datos necesarios no existen o son de mala calidad.

Actividades Principales

Recolección Inicial de Datos
- Identificar fuentes internas (bases de datos SQL, logs)
- Acceder a fuentes externas (APIs, datos públicos)
- Documentar el origen y estructura de cada fuente
Análisis Exploratorio de Datos (EDA)
- Estadísticas descriptivas: media, mediana, desviación estándar
- Visualizaciones: histogramas, boxplots, diagramas de dispersión
- Identificación de patrones iniciales y correlaciones
Verificación de Calidad
- Detección de valores faltantes (missing values)
- Identificación de duplicados
- Búsqueda de inconsistencias lógicas (edad negativa, fechas futuras)
- Principio fundamental: Garbage In, Garbage Out

Entregables Clave

Informe de calidad de datos
Estadísticas descriptivas por variable
Diccionario de datos inicial
Visualizaciones exploratorias

Fase 3: Preparación de los Datos

Esta es la fase más costosa en tiempo, consumiendo típicamente entre el 60-80% del esfuerzo total del proyecto. Los algoritmos no consumen datos crudos; requieren vectores matemáticos estructurados y limpios.

Actividades Principales

Selección de Datos
- Decidir qué variables incluir basándose en relevancia
- Eliminar columnas redundantes o irrelevantes
Limpieza de Datos
- Tratamiento de valores faltantes:
  - Eliminación (si es poco porcentaje)
  - Imputación (media, mediana, moda)
  - Modelado predictivo para imputar
- Manejo de outliers: Identificar si son errores o eventos legítimos
Ingeniería de Características (Feature Engineering)
- Crear nuevas variables que aporten poder predictivo
- Ejemplos:
  - Ejemplo bancario: Transformar “fecha de transacción” en “días desde la última transacción”
  - Ejemplo retail: Crear “ratio de compras festivas vs. normales”
Transformaciones Técnicas
- Normalización/Escalado: Llevar valores a escala común (0-1 o media 0 y desviación 1)
- Codificación de variables categóricas:
  - Label Encoding: asignar números a categorías
  - One-Hot Encoding: crear columnas binarias por categoría
- Transformaciones matemáticas: Logaritmos para distribuciones asimétricas
Integración de Datos
- Unir tablas de diferentes fuentes (joins)
- Resolver inconsistencias entre sistemas

Entregables Clave

Dataset limpio y estructurado listo para modelado
Documentación detallada de todas las transformaciones
Scripts de preparación reproducibles
Variables de ingeniería creadas y justificadas

Fase 4: Modelado

Es el núcleo computacional donde se aplican los algoritmos de machine learning.

Actividades Principales

Selección de Técnicas
- Basada en el tipo de problema:
  - Regresión: Predecir valores continuos
  - Clasificación: Predecir categorías
  - Clusterización: Descubrir grupos naturales
- Consideración de restricciones (interpretabilidad, velocidad)
Diseño de la Prueba
- División de datos:
  - Conjunto de entrenamiento (70-80%): Para enseñar al modelo
  - Conjunto de prueba (20-30%): Para evaluar rendimiento
- Validación cruzada (k-fold): Estrategia robusta para evitar sobreajuste
Construcción del Modelo
- Ajustar un modelo base
- Entrenar múltiples algoritmos (comparación)
- Ajustar hiperparámetros (tuning)
- Evaluar métricas técnicas

Entregables Clave

Modelos entrenados y serializados
Comparación de algoritmos con métricas
Documentación de hiperparámetros óptimos
Análisis de importancia de características

Evaluación

A diferencia de la evaluación técnica dentro del modelado, esta fase revisa el modelo desde la óptica del negocio.

Actividades Principales

Evaluación de Resultados contra Objetivos de Negocio
- ¿El modelo resuelve el problema original?
- ¿El rendimiento justifica el costo de implementación?
- ¿Los datos necesarios estarán disponibles en producción?
Revisión del Proceso
- Auditoría de calidad metodológica
- Verificación de que no hubo data leakage
- Revisión ética: ¿El modelo perpetúa sesgos injustos?
Decisión de Despliegue
- Proceder: Si el ROI es claro y el modelo es robusto
- Iterar: Si hay oportunidades de mejora identificadas
- Cancelar: Si el valor de negocio no se materializa

Preguntas Críticas de Evaluación

¿El modelo es interpretable para los stakeholders?
¿Los datos de entrada estarán disponibles en tiempo real?
¿El modelo es robusto ante cambios en el entorno?
¿Cumple con regulaciones y estándares éticos?

Entregables Clave

Informe de evaluación con métricas de negocio
Análisis de impacto financiero (ROI proyectado)
Lista de verificación de preparación para despliegue
Recomendaciones de mejora o iteración

Fase 6: Despliegue

La inteligencia generada debe operacionalizarse e integrarse en los procesos diarios de la organización.

Actividades Principales

Planificación del Despliegue
- Definir infraestructura (cloud, on-premise)
- Diseñar arquitectura de integración (APIs, microservicios)
- Establecer protocolos de seguridad
Implementación
- Poner el modelo en producción
- Crear interfaces de usuario (dashboards, aplicaciones)
- Integrar con sistemas existentes (CRM, ERP)
Monitoreo y Mantenimiento
- Data Drift: Los datos cambian con el tiempo
- Model Drift: El rendimiento se degrada
- Establecer KPIs de monitoreo continuo
- Definir frecuencia de reentrenamiento
Documentación y Capacitación
- Manuales de usuario
- Capacitación a equipos operativos
- Documentación técnica para mantenimiento

Entregables Clave

Modelo desplegado en producción
Plan de monitoreo con alertas
Dashboard de métricas en tiempo real
Documentación completa del sistema
Plan de mantenimiento y actualización

Casos de Estudio: CRISP-DM en Acción

Caso de Regresión: Predicción de Ventas en Walmart

Contexto de Negocio

Walmart opera más de 10,000 tiendas globalmente y enfrenta el desafío de gestionar inventarios para miles de productos. El sub-stock genera ventas perdidas, mientras que el sobre-stock incrementa costos de almacenamiento.

Aplicación de CRISP-DM

1. Entendimiento del Negocio

Objetivo: Desarrollar un sistema de pronóstico de ventas semanales por departamento y tienda.
Criterios de éxito:
- Minimizar el Error Medio Absoluto Ponderado (WMAE), dando mayor peso a semanas festivas.
- Generar una función de ganancias por producto en la que consideremos:
  - Si predijimos menos y no había inventario -> ¿Cuánto perdimos de ganancias por no tener inventario suficiente?
  - Si predijimos que eran más y se vendió menos -> Sumar las ganancias por ventas y restarle los costos de almacenamientos.

2. Entendimiento de Datos

Registros históricos 2010-2012 de 45 tiendas
Variables: Store, Dept, Weekly_Sales, IsHoliday, CPI, Desempleo, Temperatura, Fuel_Price

3. Preparación de Datos

Tratamiento de valores negativos (devoluciones).
- ¿Necesitamos resolver este problema en este caso de negocio?
Ingeniería de características.
- ¿Cómo predecir la venta de mañana con datos históricos?
Transformación de festivos en variables categóricas específicas

4. Modelado

¿Cómo vamos a dividir los datos para evaluación?
¿Qué modelo podemos establecer cómo base? ¿Promedios historicos?
Buscar modelos que nos ayuden a resolver este problema.

5. Evaluación

¿WMAE significativamente reducido vs. promedios históricos?
¿Mejorar ganancias con respecto a promedios históricos?

6. Despliegue

Hay dos opciones:

Si Walmart tiene un encargado del stock de los almacenes crearle una solución que le ayude a planear el inventario. Podría funcionar un dashboard donde pueda visualizar las posibles ventas en un periodo de 1 mes al futuro.
Si Walmart tiene todo automatizado, la mejor solución es algo que pueda decirle al sistema cuánto es lo que necesita planear.

Impacto de Negocio

Optimización de inventario
Reducción de costos de almacenamiento
Mejora en disponibilidad de productos en semanas clave

Caso de Clasificación: Detección de Fraude en Tarjetas de Crédito

Contexto de Negocio

El fraude financiero representa una amenaza existencial para la confianza bancaria. Solo el 0.17% de transacciones son fraudulentas.

Aplicación de CRISP-DM

1. Entendimiento del Negocio

Objetivo: Identificar transacciones fraudulentas en tiempo real
Costos asimétricos:
- Falso positivo: Frustración del cliente ¿Se puede cuantificar?
- Falso negativo: Pérdida financiera directa ¿Cómo la cuantificamos?

2. Entendimiento de Datos

284,807 transacciones, 492 fraudulentas (0.17%)

3. Preparación de Datos

Ingeniería: Extracción de “hora del día” para patrones circadianos
Muestreo estratificado para mantener proporción de fraude

4. Modelado

Establecer modelo base
Buscar modelos que mejoren el desempeño por encima del modelo base.
¿Cómo vamos a dividir los datos para evaluar?

5. Evaluación

Análisis costo-beneficio: $11,500 en pérdidas prevenidas
25% de fraudes no detectados = riesgo residual a gestionar
- ¿Cuánto riesgo hay en este 25% de fraudes?

6. Despliegue

Modelo con latencia <100ms (requisito de tiempo real)
Implementación de SHAP para explicabilidad
Integración con equipo de analistas de fraude

Impacto de Negocio

Prevención de pérdidas financieras directas
Reducción de molestias a clientes legítimos
Cumplimiento con normativas de auditabilidad

Caso de Clusterización: Segmentación de Clientes Bancarios

Contexto de Negocio

Bank Rakyat Indonesia (BRI) utiliza un Sistema de Gestión de Efectivo (CMS) para 2,727 empresas. Necesitan segmentar clientes para diseñar estrategias de servicio y marketing diferenciadas.

Aplicación de CRISP-DM

1. Entendimiento del Negocio

Objetivo: Agrupar usuarios de CMS para personalizar servicio
Problema: Muchas transacciones fuera de horario laboral dificultan el soporte

2. Entendimiento de Datos

Registros transaccionales enero 2021 - abril 2022
Limpieza de anomalías
Variables: Volumen de transacciones (monto) y Frecuencia (número de operaciones)

3. Preparación de Datos

Normalización de variables para eliminar sesgos de magnitud
Selección de características relevantes para segmentación

4. Modelado

Algoritmo: K-Means Clustering
Método del Codo (Elbow Method): K=3 óptimo
Resultados:
- Cluster 0 (Masivo): 2,274 empresas - PyMEs con volumen estándar
- Cluster 1 (Élite): 163 empresas - Corporativos de alto valor
- Cluster 2 (Intermedio): 220 empresas - En crecimiento
¿Es el único algoritmo?

5. Evaluación

Validación técnica: ¿Índice Davies-Bouldin?
Validación de negocio: ¿Los clusters permiten acciones concretas diferenciadas?
- ¿Cómo evaluarían estas acciones sobre los clusters?

6. Despliegue

Perfiles cargados en CRM
Estrategias por cluster:
- Élite: Gerentes dedicados, soporte 24/7
- Masivo: Autoservicio digital, campañas automatizadas
- Intermedio: Upselling, educación de productos premium

Impacto de Negocio

Marketing más relevante y eficiente
Optimización de recursos de soporte
Mejora en satisfacción del cliente

Naturaleza Iterativa: El Secreto del Éxito en CRISP-DM

¿Por Qué la Iteración es Esencial?

CRISP-DM NO es un proceso lineal tipo cascada. Los descubrimientos en una fase posterior frecuentemente requieren regresar a fases anteriores:

Ejemplos de Flujos Iterativos

Ejemplo 1: Del Modelado a la Preparación

Descubres que el modelo tiene bajo rendimiento
Regresas a Preparación de Datos para crear nuevas características
Vuelves a entrenar y evaluar

Ejemplo 2: De Evaluación a Entendimiento del Negocio

El modelo es técnicamente preciso pero comercialmente inútil
Regresas a redefinir el problema de negocio
Ajustas los objetivos y reiniciar el ciclo

Ejemplo 3: Del Despliegue a Modelado

El modelo se degrada en producción (data drift)
Regresas a reentrenar con datos más recientes
Ajustas el algoritmo o características

Principios de la Iteración Efectiva

Fallar rápido y aprender: Mejor descubrir problemas temprano
Documentar decisiones: Cada iteración debe ser trazable
Comunicación continua: Mantener a stakeholders informados
Validación incremental: No esperar al final para validar con el negocio

Desafíos Contemporáneos en la Aplicación de CRISP-DM

Integración con Metodologías Ágiles

CRISP-DM se desarrolló en la era de desarrollo en cascada. Hoy, las organizaciones operan en modo Ágil (Scrum, Kanban).

Solución:

Sprints de 2 semanas dentro de fases de CRISP-DM
No esperar el “modelo perfecto”
Desplegar un MVP (Producto Mínimo Viable) e iterar

Ética y Gobernanza de la IA

Los modelos pueden perpetuar sesgos históricos:

Precios inmobiliarios sesgados por código postal
Sistemas de crédito discriminatorios
Contratación automatizada con prejuicios de género

Requerimientos:

Auditorías de equidad (fairness) en la fase de Evaluación
Cumplimiento con GDPR y regulaciones de privacidad
Transparencia en el uso de datos

Explicabilidad (XAI - Explainable AI)

Los modelos complejos (Deep Learning, Ensemble Methods) son “cajas negras”. En sectores regulados (banca, salud), se requiere:

SHAP (SHapley Additive exPlanations): Explica contribución de cada característica
LIME (Local Interpretable Model-agnostic Explanations): Aproximaciones interpretables locales
Derecho a explicación: Regulaciones que exigen justificar decisiones automatizadas

MLOps: La Evolución del Despliegue

El despliegue moderno requiere prácticas de DevOps aplicadas a ML:

CI/CD para modelos: Pipelines automatizados de entrenamiento
Versionado de modelos: Rastrear qué versión está en producción
Monitoreo activo: Alertas automáticas por degradación
A/B Testing: Comparar modelos en producción

Comparación con Otras Metodologías

Aspecto	CRISP-DM	KDD	SEMMA (SAS)	TDSP (Microsoft)
Enfoque	Negocio primero	Proceso técnico	Herramienta-específica	Cloud/Azure-específico
Iteración	Explícita y flexible	Lineal	Cíclica limitada	DevOps integrado
Industria	Agnóstico	Academia	SAS ecosistema	Microsoft ecosistema
Popularidad	~43% de proyectos	~27%	~10%	Creciendo
Fase distintiva	Entendimiento Negocio	Discovery	Sample	Adquisición Cliente

Por qué CRISP-DM sigue siendo líder:

Independiente de herramientas y plataformas
Balance entre rigor técnico y valor de negocio
Amplia adopción y documentación
Flexible para adaptarse a contextos modernos

Mejores Prácticas y Lecciones Aprendidas

Entendimiento del Negocio

✅ Hacer:

Invertir tiempo suficiente (no apresurarse al código)
Definir criterios de éxito cuantitativos y medibles
Involucrar a stakeholders reales, no solo intermediarios

❌ Evitar:

Asumir que entiendes el problema sin validar
Definir objetivos técnicos sin conexión con KPIs de negocio
Ignorar restricciones operativas y legales

Preparación de Datos

✅ Hacer:

Documentar cada transformación con código reproducible
Validar la calidad de datos con el equipo de negocio
Crear pipelines automatizados de limpieza

❌ Evitar:

Eliminar datos sin entender su significado
Transformar variables sin justificación teórica
Crear “data leakage” usando información del futuro

Modelado

✅ Hacer:

Comenzar con modelos simples (baseline)
Comparar múltiples algoritmos objetivamente
Usar validación cruzada (casi) siempre

❌ Evitar:

Elegir algoritmos “porque están de moda”
Sobreajustar hiperparámetros al conjunto de prueba
Ignorar el trade-off interpretabilidad vs. precisión

Despliegue

✅ Hacer:

Diseñar para degradación (el modelo fallará eventualmente)
Implementar monitoreo desde el día 1
Planificar reentrenamiento periódico

❌ Evitar:

“Lanzar y olvidar” sin monitoreo
Ignorar latencia y restricciones de producción
No tener plan de rollback si el modelo falla

Ejercicios y Actividades de Aprendizaje

Ejercicio 1: Mapeo de Problemas a Fases de CRISP-DM

Clasifica las siguientes actividades en su fase correspondiente:

Crear la variable “días desde última compra”
Decidir si el modelo será un clasificador o regresor
Calcular el ROI del proyecto
Aplicar One-Hot Encoding a variables categóricas
Verificar que el modelo no discrimina por género
Implementar un API para el modelo
Visualizar la distribución de la variable objetivo
Entrenar un Random Forest con 100 árboles

Ejercicio 2: Caso de Estudio - E-commerce

Una tienda en línea quiere reducir el abandono de carritos de compra.

Tareas:

Define el objetivo de negocio en términos cuantitativos
Traduce el objetivo a un problema de minería de datos (tipo de problema)
Lista 5 variables que podrían ser relevantes
Propón 2 transformaciones de ingeniería de características
Sugiere el algoritmo base
¿Cómo construirías una métrica de evaluación de negocio?

Ejercicio 3: Análisis Crítico

Lee este escenario:

“Un equipo desarrolló un modelo de clasificación de riesgo crediticio con 92% de accuracy. Lo desplegaron en producción sin más análisis. Tres meses después, descubrieron que el modelo rechazaba el 80% de solicitudes de un grupo demográfico específico.”

Preguntas:

¿En qué fase(s) de CRISP-DM falló el equipo?
¿Qué actividades específicas debieron realizar y no hicieron?
¿Por qué un 92% de accuracy no garantiza un buen modelo?
¿Cómo podrían haber detectado el problema antes del despliegue?

Ejercicio 4: Diseño de Proyecto

En equipos, diseñen un proyecto de minería de datos para uno de estos problemas:

Predicción de demanda energética en una ciudad
Detección de comentarios tóxicos en redes sociales
Segmentación de pacientes hospitalarios por riesgo

Entregables (siguiendo CRISP-DM):

Documento de objetivos de negocio
Plan de adquisición y exploración de datos
Lista de transformaciones de preparación necesarias
Planteen cuál sería su algoritmo base
Propuesta de métricas de evaluación
Estrategia de despliegue y monitoreo

Resumen Ejecutivo

Puntos Clave para Recordar

CRISP-DM es un marco, no una receta rígida: Adáptalo a tu contexto
El negocio es primero: Sin valor empresarial, no hay proyecto exitoso
La preparación de datos es el 60-80% del trabajo: No lo subestimes
La iteración es normal y esperada: No es señal de fracaso
La evaluación va más allá de métricas técnicas: Considera ética, costos, operatividad
El despliegue no es el final: Es el comienzo del ciclo de vida del modelo

Tabla Resumen: Fases y Preguntas Clave

Fase	Pregunta Central	Riesgo Principal si se Omite
Entendimiento Negocio	¿Por qué estamos haciendo esto?	Modelo técnicamente correcto pero comercialmente inútil
Entendimiento Datos	¿Qué datos tenemos realmente?	Descubrir tarde que los datos no existen o son insuficientes
Preparación Datos	¿Cómo transformamos datos crudos en conocimiento?	Garbage in, garbage out - modelo basado en datos sucios
Modelado	¿Qué algoritmo captura mejor los patrones?	Elegir el algoritmo equivocado para el problema
Evaluación	¿El modelo resuelve el problema de negocio?	Desplegar un modelo que no genera valor o es injusto
Despliegue	¿Cómo integramos esto en operaciones?	Modelo que nunca se usa o falla en producción

Conclusión

La metodología CRISP-DM no es simplemente un estándar técnico; es un marco de pensamiento estructurado para la ingeniería de negocios en la era digital. Su poder reside en:

Alineación estratégica: Conecta tecnología con resultados de negocio
Reducción de riesgos: Valida viabilidad en cada fase antes de comprometer recursos
Comunicación efectiva: Proporciona un lenguaje común entre técnicos y ejecutivos
Calidad y reproducibilidad: Asegura que el conocimiento no se pierda

Como ingeniero de negocios, dominar CRISP-DM es dominar el lenguaje de la innovación moderna. Es la diferencia entre proyectos de datos que generan valor sostenible y aquellos que se convierten en costosos experimentos sin impacto.

En los siguientes capítulos, profundizaremos en técnicas específicas de regresión, clasificación y clusterización, aplicando siempre el marco de CRISP-DM como nuestra guía metodológica.

Referencias

Chapman, P., et al. (2000). CRISP-DM 1.0: Step-by-step data mining guide.
Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of Data Warehousing, 5(4), 13-22.
Wirth, R., & Hipp, J. (2000). CRISP-DM: Towards a standard process model for data mining. Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining.