Metodología CRISP-DM
Objetivos de Aprendizaje
Al finalizar este capítulo, serás capaz de:
- Comprender la importancia de una metodología estándar en proyectos de ciencia de datos
- Identificar y aplicar las seis fases del modelo CRISP-DM
- Reconocer la naturaleza iterativa y no lineal de los proyectos de datos
- Relacionar objetivos de negocio con objetivos técnicos de minería de datos
- Aplicar CRISP-DM en casos reales de regresión, clasificación y clusterización
Introducción: La Necesidad de una Metodología Estándar
El Problema de la Fragmentación
Antes de la llegada de CRISP-DM a finales de los años 90, la minería de datos era un campo caótico. Las organizaciones abordaban los problemas analíticos de manera ad hoc, dependiendo excesivamente de la intuición de expertos individuales. Esta falta de estandarización resultaba en:
- Proyectos no replicables: El conocimiento se perdía con la rotación del personal
- Altas tasas de fracaso: No por deficiencias algorítmicas, sino por desconexión entre objetivos de negocio y ejecución técnica
- Costos excesivos: Sin un proceso claro, los equipos repetían errores conocidos
- Falta de comunicación: Los técnicos y los ejecutivos “hablaban lenguajes diferentes”
¿Qué es CRISP-DM?
CRISP-DM (Cross-Industry Standard Process for Data Mining) es el proceso estándar de la industria cruzada para la minería de datos. Fue diseñado para ser:
- Agnóstico a la industria: Aplicable en retail, banca, telecomunicaciones, salud, etc.
- Independiente de herramientas: Funciona con Python, R, SAS, o cualquier stack tecnológico
- Orientado al negocio: Coloca el “Entendimiento del Negocio” como piedra angular
- Iterativo: Permite ciclos de retroalimentación y ajustes continuos
Las Seis Fases de CRISP-DM
El modelo se estructura en seis fases interconectadas. Es fundamental entender que aunque se presentan secuencialmente, la dinámica real es cíclica y bidireccional.
┌─────────────────────────────────────────────────────┐
│ │
│ 1. Entendimiento del Negocio │
│ ↓ ↑ │
│ 2. Entendimiento de los Datos │
│ ↓ ↑ │
│ 3. Preparación de los Datos (60-80% del tiempo) │
│ ↓ ↑ │
│ 4. Modelado │
│ ↓ ↑ │
│ 5. Evaluación │
│ ↓ ↑ │
│ 6. Despliegue │
│ ↓ │
│ [Retorno a cualquier fase según necesidad] │
│ │
└─────────────────────────────────────────────────────┘
Fase 1: Entendimiento del Negocio
Esta es la fase más crítica y diferenciadora de CRISP-DM.
Actividades Principales
- Determinación de Objetivos de Negocio
- ¿Qué dolor empresarial estamos aliviando?
- ¿Qué oportunidad estamos capturando?
- Ejemplo: “Reducir el inventario obsoleto en un 15%” o “Aumentar la tasa de retención de clientes en un 10%”
- Evaluación de la Situación
- Inventario de recursos disponibles
- Identificación de restricciones legales (GDPR, privacidad)
- Análisis de riesgos y contingencias
- Evaluación del apetito de riesgo organizacional
- Traducción a Objetivos de Minería de Datos
- Convertir objetivos de negocio en objetivos técnicos medibles
- Ejemplo: “Reducir el fraude” → “Desarrollar un modelo de clasificación binaria con precisión mínima del 95% y tasa de falsos positivos inferior al 1%”
Entregables Clave
- Documento de objetivos del proyecto
- Evaluación de recursos y restricciones
- Análisis costo-beneficio preliminar
- Plan de proyecto con criterios de éxito
Fase 2: Entendimiento de los Datos
Esta fase actúa como un filtro de viabilidad técnica. No importa qué tan brillante sea la idea de negocio si los datos necesarios no existen o son de mala calidad.
Actividades Principales
- Recolección Inicial de Datos
- Identificar fuentes internas (bases de datos SQL, logs)
- Acceder a fuentes externas (APIs, datos públicos)
- Documentar el origen y estructura de cada fuente
- Análisis Exploratorio de Datos (EDA)
- Estadísticas descriptivas: media, mediana, desviación estándar
- Visualizaciones: histogramas, boxplots, diagramas de dispersión
- Identificación de patrones iniciales y correlaciones
- Verificación de Calidad
- Detección de valores faltantes (missing values)
- Identificación de duplicados
- Búsqueda de inconsistencias lógicas (edad negativa, fechas futuras)
- Principio fundamental: Garbage In, Garbage Out
Entregables Clave
- Informe de calidad de datos
- Estadísticas descriptivas por variable
- Diccionario de datos inicial
- Visualizaciones exploratorias
Fase 3: Preparación de los Datos
Esta es la fase más costosa en tiempo, consumiendo típicamente entre el 60-80% del esfuerzo total del proyecto. Los algoritmos no consumen datos crudos; requieren vectores matemáticos estructurados y limpios.
Actividades Principales
- Selección de Datos
- Decidir qué variables incluir basándose en relevancia
- Eliminar columnas redundantes o irrelevantes
- Limpieza de Datos
- Tratamiento de valores faltantes:
- Eliminación (si es poco porcentaje)
- Imputación (media, mediana, moda)
- Modelado predictivo para imputar
- Manejo de outliers: Identificar si son errores o eventos legítimos
- Tratamiento de valores faltantes:
- Ingeniería de Características (Feature Engineering)
- Crear nuevas variables que aporten poder predictivo
- Ejemplos:
- Ejemplo bancario: Transformar “fecha de transacción” en “días desde la última transacción”
- Ejemplo retail: Crear “ratio de compras festivas vs. normales”
- Transformaciones Técnicas
- Normalización/Escalado: Llevar valores a escala común (0-1 o media 0 y desviación 1)
- Codificación de variables categóricas:
- Label Encoding: asignar números a categorías
- One-Hot Encoding: crear columnas binarias por categoría
- Transformaciones matemáticas: Logaritmos para distribuciones asimétricas
- Integración de Datos
- Unir tablas de diferentes fuentes (joins)
- Resolver inconsistencias entre sistemas
Entregables Clave
- Dataset limpio y estructurado listo para modelado
- Documentación detallada de todas las transformaciones
- Scripts de preparación reproducibles
- Variables de ingeniería creadas y justificadas
Fase 4: Modelado
Es el núcleo computacional donde se aplican los algoritmos de machine learning.
Actividades Principales
- Selección de Técnicas
- Basada en el tipo de problema:
- Regresión: Predecir valores continuos
- Clasificación: Predecir categorías
- Clusterización: Descubrir grupos naturales
- Consideración de restricciones (interpretabilidad, velocidad)
- Basada en el tipo de problema:
- Diseño de la Prueba
- División de datos:
- Conjunto de entrenamiento (70-80%): Para enseñar al modelo
- Conjunto de prueba (20-30%): Para evaluar rendimiento
- Validación cruzada (k-fold): Estrategia robusta para evitar sobreajuste
- División de datos:
- Construcción del Modelo
- Ajustar un modelo base
- Entrenar múltiples algoritmos (comparación)
- Ajustar hiperparámetros (tuning)
- Evaluar métricas técnicas
Entregables Clave
- Modelos entrenados y serializados
- Comparación de algoritmos con métricas
- Documentación de hiperparámetros óptimos
- Análisis de importancia de características
Evaluación
A diferencia de la evaluación técnica dentro del modelado, esta fase revisa el modelo desde la óptica del negocio.
Actividades Principales
- Evaluación de Resultados contra Objetivos de Negocio
- ¿El modelo resuelve el problema original?
- ¿El rendimiento justifica el costo de implementación?
- ¿Los datos necesarios estarán disponibles en producción?
- Revisión del Proceso
- Auditoría de calidad metodológica
- Verificación de que no hubo data leakage
- Revisión ética: ¿El modelo perpetúa sesgos injustos?
- Decisión de Despliegue
- Proceder: Si el ROI es claro y el modelo es robusto
- Iterar: Si hay oportunidades de mejora identificadas
- Cancelar: Si el valor de negocio no se materializa
Preguntas Críticas de Evaluación
- ¿El modelo es interpretable para los stakeholders?
- ¿Los datos de entrada estarán disponibles en tiempo real?
- ¿El modelo es robusto ante cambios en el entorno?
- ¿Cumple con regulaciones y estándares éticos?
Entregables Clave
- Informe de evaluación con métricas de negocio
- Análisis de impacto financiero (ROI proyectado)
- Lista de verificación de preparación para despliegue
- Recomendaciones de mejora o iteración
Fase 6: Despliegue
La inteligencia generada debe operacionalizarse e integrarse en los procesos diarios de la organización.
Actividades Principales
- Planificación del Despliegue
- Definir infraestructura (cloud, on-premise)
- Diseñar arquitectura de integración (APIs, microservicios)
- Establecer protocolos de seguridad
- Implementación
- Poner el modelo en producción
- Crear interfaces de usuario (dashboards, aplicaciones)
- Integrar con sistemas existentes (CRM, ERP)
- Monitoreo y Mantenimiento
- Data Drift: Los datos cambian con el tiempo
- Model Drift: El rendimiento se degrada
- Establecer KPIs de monitoreo continuo
- Definir frecuencia de reentrenamiento
- Documentación y Capacitación
- Manuales de usuario
- Capacitación a equipos operativos
- Documentación técnica para mantenimiento
Entregables Clave
- Modelo desplegado en producción
- Plan de monitoreo con alertas
- Dashboard de métricas en tiempo real
- Documentación completa del sistema
- Plan de mantenimiento y actualización
Casos de Estudio: CRISP-DM en Acción
Caso de Regresión: Predicción de Ventas en Walmart
Contexto de Negocio
Walmart opera más de 10,000 tiendas globalmente y enfrenta el desafío de gestionar inventarios para miles de productos. El sub-stock genera ventas perdidas, mientras que el sobre-stock incrementa costos de almacenamiento.
Aplicación de CRISP-DM
1. Entendimiento del Negocio
- Objetivo: Desarrollar un sistema de pronóstico de ventas semanales por departamento y tienda.
- Criterios de éxito:
- Minimizar el Error Medio Absoluto Ponderado (WMAE), dando mayor peso a semanas festivas.
- Generar una función de ganancias por producto en la que consideremos:
- Si predijimos menos y no había inventario -> ¿Cuánto perdimos de ganancias por no tener inventario suficiente?
- Si predijimos que eran más y se vendió menos -> Sumar las ganancias por ventas y restarle los costos de almacenamientos.
2. Entendimiento de Datos
- Registros históricos 2010-2012 de 45 tiendas
- Variables: Store, Dept, Weekly_Sales, IsHoliday, CPI, Desempleo, Temperatura, Fuel_Price
3. Preparación de Datos
- Tratamiento de valores negativos (devoluciones).
- ¿Necesitamos resolver este problema en este caso de negocio?
- Ingeniería de características.
- ¿Cómo predecir la venta de mañana con datos históricos?
- Transformación de festivos en variables categóricas específicas
4. Modelado
- ¿Cómo vamos a dividir los datos para evaluación?
- ¿Qué modelo podemos establecer cómo base? ¿Promedios historicos?
- Buscar modelos que nos ayuden a resolver este problema.
5. Evaluación
- ¿WMAE significativamente reducido vs. promedios históricos?
- ¿Mejorar ganancias con respecto a promedios históricos?
6. Despliegue
Hay dos opciones:
- Si Walmart tiene un encargado del stock de los almacenes crearle una solución que le ayude a planear el inventario. Podría funcionar un dashboard donde pueda visualizar las posibles ventas en un periodo de 1 mes al futuro.
- Si Walmart tiene todo automatizado, la mejor solución es algo que pueda decirle al sistema cuánto es lo que necesita planear.
Impacto de Negocio
- Optimización de inventario
- Reducción de costos de almacenamiento
- Mejora en disponibilidad de productos en semanas clave
Caso de Clasificación: Detección de Fraude en Tarjetas de Crédito
Contexto de Negocio
El fraude financiero representa una amenaza existencial para la confianza bancaria. Solo el 0.17% de transacciones son fraudulentas.
Aplicación de CRISP-DM
1. Entendimiento del Negocio
- Objetivo: Identificar transacciones fraudulentas en tiempo real
- Costos asimétricos:
- Falso positivo: Frustración del cliente ¿Se puede cuantificar?
- Falso negativo: Pérdida financiera directa ¿Cómo la cuantificamos?
2. Entendimiento de Datos
- 284,807 transacciones, 492 fraudulentas (0.17%)
3. Preparación de Datos
- Ingeniería: Extracción de “hora del día” para patrones circadianos
- Muestreo estratificado para mantener proporción de fraude
4. Modelado
- Establecer modelo base
- Buscar modelos que mejoren el desempeño por encima del modelo base.
- ¿Cómo vamos a dividir los datos para evaluar?
5. Evaluación
- Análisis costo-beneficio: $11,500 en pérdidas prevenidas
- 25% de fraudes no detectados = riesgo residual a gestionar
- ¿Cuánto riesgo hay en este 25% de fraudes?
6. Despliegue
- Modelo con latencia <100ms (requisito de tiempo real)
- Implementación de SHAP para explicabilidad
- Integración con equipo de analistas de fraude
Impacto de Negocio
- Prevención de pérdidas financieras directas
- Reducción de molestias a clientes legítimos
- Cumplimiento con normativas de auditabilidad
Caso de Clusterización: Segmentación de Clientes Bancarios
Contexto de Negocio
Bank Rakyat Indonesia (BRI) utiliza un Sistema de Gestión de Efectivo (CMS) para 2,727 empresas. Necesitan segmentar clientes para diseñar estrategias de servicio y marketing diferenciadas.
Aplicación de CRISP-DM
1. Entendimiento del Negocio
- Objetivo: Agrupar usuarios de CMS para personalizar servicio
- Problema: Muchas transacciones fuera de horario laboral dificultan el soporte
2. Entendimiento de Datos
- Registros transaccionales enero 2021 - abril 2022
- Limpieza de anomalías
- Variables: Volumen de transacciones (monto) y Frecuencia (número de operaciones)
3. Preparación de Datos
- Normalización de variables para eliminar sesgos de magnitud
- Selección de características relevantes para segmentación
4. Modelado
- Algoritmo: K-Means Clustering
- Método del Codo (Elbow Method): K=3 óptimo
- Resultados:
- Cluster 0 (Masivo): 2,274 empresas - PyMEs con volumen estándar
- Cluster 1 (Élite): 163 empresas - Corporativos de alto valor
- Cluster 2 (Intermedio): 220 empresas - En crecimiento
- ¿Es el único algoritmo?
5. Evaluación
- Validación técnica: ¿Índice Davies-Bouldin?
- Validación de negocio: ¿Los clusters permiten acciones concretas diferenciadas?
- ¿Cómo evaluarían estas acciones sobre los clusters?
6. Despliegue
- Perfiles cargados en CRM
- Estrategias por cluster:
- Élite: Gerentes dedicados, soporte 24/7
- Masivo: Autoservicio digital, campañas automatizadas
- Intermedio: Upselling, educación de productos premium
Impacto de Negocio
- Marketing más relevante y eficiente
- Optimización de recursos de soporte
- Mejora en satisfacción del cliente
Naturaleza Iterativa: El Secreto del Éxito en CRISP-DM
¿Por Qué la Iteración es Esencial?
CRISP-DM NO es un proceso lineal tipo cascada. Los descubrimientos en una fase posterior frecuentemente requieren regresar a fases anteriores:
Ejemplos de Flujos Iterativos
Ejemplo 1: Del Modelado a la Preparación
- Descubres que el modelo tiene bajo rendimiento
- Regresas a Preparación de Datos para crear nuevas características
- Vuelves a entrenar y evaluar
Ejemplo 2: De Evaluación a Entendimiento del Negocio
- El modelo es técnicamente preciso pero comercialmente inútil
- Regresas a redefinir el problema de negocio
- Ajustas los objetivos y reiniciar el ciclo
Ejemplo 3: Del Despliegue a Modelado
- El modelo se degrada en producción (data drift)
- Regresas a reentrenar con datos más recientes
- Ajustas el algoritmo o características
Principios de la Iteración Efectiva
- Fallar rápido y aprender: Mejor descubrir problemas temprano
- Documentar decisiones: Cada iteración debe ser trazable
- Comunicación continua: Mantener a stakeholders informados
- Validación incremental: No esperar al final para validar con el negocio
Desafíos Contemporáneos en la Aplicación de CRISP-DM
Integración con Metodologías Ágiles
CRISP-DM se desarrolló en la era de desarrollo en cascada. Hoy, las organizaciones operan en modo Ágil (Scrum, Kanban).
Solución:
- Sprints de 2 semanas dentro de fases de CRISP-DM
- No esperar el “modelo perfecto”
- Desplegar un MVP (Producto Mínimo Viable) e iterar
Ética y Gobernanza de la IA
Los modelos pueden perpetuar sesgos históricos:
- Precios inmobiliarios sesgados por código postal
- Sistemas de crédito discriminatorios
- Contratación automatizada con prejuicios de género
Requerimientos:
- Auditorías de equidad (fairness) en la fase de Evaluación
- Cumplimiento con GDPR y regulaciones de privacidad
- Transparencia en el uso de datos
Explicabilidad (XAI - Explainable AI)
Los modelos complejos (Deep Learning, Ensemble Methods) son “cajas negras”. En sectores regulados (banca, salud), se requiere:
- SHAP (SHapley Additive exPlanations): Explica contribución de cada característica
- LIME (Local Interpretable Model-agnostic Explanations): Aproximaciones interpretables locales
- Derecho a explicación: Regulaciones que exigen justificar decisiones automatizadas
MLOps: La Evolución del Despliegue
El despliegue moderno requiere prácticas de DevOps aplicadas a ML:
- CI/CD para modelos: Pipelines automatizados de entrenamiento
- Versionado de modelos: Rastrear qué versión está en producción
- Monitoreo activo: Alertas automáticas por degradación
- A/B Testing: Comparar modelos en producción
Comparación con Otras Metodologías
| Aspecto | CRISP-DM | KDD | SEMMA (SAS) | TDSP (Microsoft) |
|---|---|---|---|---|
| Enfoque | Negocio primero | Proceso técnico | Herramienta-específica | Cloud/Azure-específico |
| Iteración | Explícita y flexible | Lineal | Cíclica limitada | DevOps integrado |
| Industria | Agnóstico | Academia | SAS ecosistema | Microsoft ecosistema |
| Popularidad | ~43% de proyectos | ~27% | ~10% | Creciendo |
| Fase distintiva | Entendimiento Negocio | Discovery | Sample | Adquisición Cliente |
Por qué CRISP-DM sigue siendo líder:
- Independiente de herramientas y plataformas
- Balance entre rigor técnico y valor de negocio
- Amplia adopción y documentación
- Flexible para adaptarse a contextos modernos
Mejores Prácticas y Lecciones Aprendidas
Entendimiento del Negocio
✅ Hacer:
- Invertir tiempo suficiente (no apresurarse al código)
- Definir criterios de éxito cuantitativos y medibles
- Involucrar a stakeholders reales, no solo intermediarios
❌ Evitar:
- Asumir que entiendes el problema sin validar
- Definir objetivos técnicos sin conexión con KPIs de negocio
- Ignorar restricciones operativas y legales
Preparación de Datos
✅ Hacer:
- Documentar cada transformación con código reproducible
- Validar la calidad de datos con el equipo de negocio
- Crear pipelines automatizados de limpieza
❌ Evitar:
- Eliminar datos sin entender su significado
- Transformar variables sin justificación teórica
- Crear “data leakage” usando información del futuro
Modelado
✅ Hacer:
- Comenzar con modelos simples (baseline)
- Comparar múltiples algoritmos objetivamente
- Usar validación cruzada (casi) siempre
❌ Evitar:
- Elegir algoritmos “porque están de moda”
- Sobreajustar hiperparámetros al conjunto de prueba
- Ignorar el trade-off interpretabilidad vs. precisión
Despliegue
✅ Hacer:
- Diseñar para degradación (el modelo fallará eventualmente)
- Implementar monitoreo desde el día 1
- Planificar reentrenamiento periódico
❌ Evitar:
- “Lanzar y olvidar” sin monitoreo
- Ignorar latencia y restricciones de producción
- No tener plan de rollback si el modelo falla
Ejercicios y Actividades de Aprendizaje
Ejercicio 1: Mapeo de Problemas a Fases de CRISP-DM
Clasifica las siguientes actividades en su fase correspondiente:
- Crear la variable “días desde última compra”
- Decidir si el modelo será un clasificador o regresor
- Calcular el ROI del proyecto
- Aplicar One-Hot Encoding a variables categóricas
- Verificar que el modelo no discrimina por género
- Implementar un API para el modelo
- Visualizar la distribución de la variable objetivo
- Entrenar un Random Forest con 100 árboles
Ejercicio 2: Caso de Estudio - E-commerce
Una tienda en línea quiere reducir el abandono de carritos de compra.
Tareas:
- Define el objetivo de negocio en términos cuantitativos
- Traduce el objetivo a un problema de minería de datos (tipo de problema)
- Lista 5 variables que podrían ser relevantes
- Propón 2 transformaciones de ingeniería de características
- Sugiere el algoritmo base
- ¿Cómo construirías una métrica de evaluación de negocio?
Ejercicio 3: Análisis Crítico
Lee este escenario:
“Un equipo desarrolló un modelo de clasificación de riesgo crediticio con 92% de accuracy. Lo desplegaron en producción sin más análisis. Tres meses después, descubrieron que el modelo rechazaba el 80% de solicitudes de un grupo demográfico específico.”
Preguntas:
- ¿En qué fase(s) de CRISP-DM falló el equipo?
- ¿Qué actividades específicas debieron realizar y no hicieron?
- ¿Por qué un 92% de accuracy no garantiza un buen modelo?
- ¿Cómo podrían haber detectado el problema antes del despliegue?
Ejercicio 4: Diseño de Proyecto
En equipos, diseñen un proyecto de minería de datos para uno de estos problemas:
- Predicción de demanda energética en una ciudad
- Detección de comentarios tóxicos en redes sociales
- Segmentación de pacientes hospitalarios por riesgo
Entregables (siguiendo CRISP-DM):
- Documento de objetivos de negocio
- Plan de adquisición y exploración de datos
- Lista de transformaciones de preparación necesarias
- Planteen cuál sería su algoritmo base
- Propuesta de métricas de evaluación
- Estrategia de despliegue y monitoreo
Resumen Ejecutivo
Puntos Clave para Recordar
- CRISP-DM es un marco, no una receta rígida: Adáptalo a tu contexto
- El negocio es primero: Sin valor empresarial, no hay proyecto exitoso
- La preparación de datos es el 60-80% del trabajo: No lo subestimes
- La iteración es normal y esperada: No es señal de fracaso
- La evaluación va más allá de métricas técnicas: Considera ética, costos, operatividad
- El despliegue no es el final: Es el comienzo del ciclo de vida del modelo
Tabla Resumen: Fases y Preguntas Clave
| Fase | Pregunta Central | Riesgo Principal si se Omite |
|---|---|---|
| Entendimiento Negocio | ¿Por qué estamos haciendo esto? | Modelo técnicamente correcto pero comercialmente inútil |
| Entendimiento Datos | ¿Qué datos tenemos realmente? | Descubrir tarde que los datos no existen o son insuficientes |
| Preparación Datos | ¿Cómo transformamos datos crudos en conocimiento? | Garbage in, garbage out - modelo basado en datos sucios |
| Modelado | ¿Qué algoritmo captura mejor los patrones? | Elegir el algoritmo equivocado para el problema |
| Evaluación | ¿El modelo resuelve el problema de negocio? | Desplegar un modelo que no genera valor o es injusto |
| Despliegue | ¿Cómo integramos esto en operaciones? | Modelo que nunca se usa o falla en producción |
Conclusión
La metodología CRISP-DM no es simplemente un estándar técnico; es un marco de pensamiento estructurado para la ingeniería de negocios en la era digital. Su poder reside en:
- Alineación estratégica: Conecta tecnología con resultados de negocio
- Reducción de riesgos: Valida viabilidad en cada fase antes de comprometer recursos
- Comunicación efectiva: Proporciona un lenguaje común entre técnicos y ejecutivos
- Calidad y reproducibilidad: Asegura que el conocimiento no se pierda
Como ingeniero de negocios, dominar CRISP-DM es dominar el lenguaje de la innovación moderna. Es la diferencia entre proyectos de datos que generan valor sostenible y aquellos que se convierten en costosos experimentos sin impacto.
En los siguientes capítulos, profundizaremos en técnicas específicas de regresión, clasificación y clusterización, aplicando siempre el marco de CRISP-DM como nuestra guía metodológica.
Referencias
- Chapman, P., et al. (2000). CRISP-DM 1.0: Step-by-step data mining guide.
- Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of Data Warehousing, 5(4), 13-22.
- Wirth, R., & Hipp, J. (2000). CRISP-DM: Towards a standard process model for data mining. Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining.