Minería de Datos

ITAM 2026

Autor/a

Saúl Caballero

Temario

I. Fundamentos y Proceso

El Ecosistema de Datos

Motivación: DM vs. ML vs. IA. El valor económico de los datos. Ética y privacidad.

Metodología CRISP-DM

Introducción al aprendizaje de máquina. Ciclo de vida del proyecto. Definición de objetivos de negocio y traducción a objetivos de minería.

Comprensión de Datos (EDA)

Estadísticos descriptivos vs. inferenciales. Visualización para la toma de decisiones. Detección de “Datos Sucios”.

Preparación e Ingeniería

Limpieza de datos. Ingeniería de Características (RFM). Codificación de variables categóricas. El costo de la mala calidad de datos.

II. Evaluación de modelos

Métricas de Clasificación

La Paradoja de la Exactitud. Precisión, Recall, F1. Trade-offs operativos.

Métricas de Regresión

R cuadrada, MAE, MAPE, ejemplos.

Evaluación Financiera I

La Matriz de Confusión como Estado Financiero. Costos de FP y FN. Valor Esperado.

Evaluación Financiera II

Curvas de Lift, Gain y Profit. Análisis de Deciles. Optimización de umbrales para maximizar utilidad.

III. Modelado Predictivo

Árboles y Reglas

Árboles de Decisión (CART). Interpretabilidad visual. Reglas de negocio derivadas.

Ensambles I - Bagging

Random Forests. Reducción de varianza. Importancia de Variables para estrategia.

Ensambles II - Boosting

Gradient Boosting (XGBoost). Intuición de corrección de errores. Tuning básico. Evitar la derivación profunda, enfocar en aplicación.

Interpretabilidad (XAI)

SHAP y LIME. Explicando la “Caja Negra” a los stakeholders y reguladores.

IV. Detección de Patrones

Reglas de Asociación

Análisis de Cesta de Mercado. Algoritmo Apriori. Estrategias de Cross-selling en Retail.

Clustering (Segmentación)

K-Means y Jerárquico. Definición de “Personas” y perfiles de clientes. Marketing segmentado.

Detección de Anomalías

Isolation Forests. Detección de Fraude y Riesgos Operativos. Gestión de alertas.

Evaluación

  • Tareas (15%)
  • Quizes (25%)
  • Examen parcial: 15 de abril 2026 (30%)
  • Proyecto final (30%):
    • Entrega (75%)
    • Exposición (25%)

Canal de Slack

Existirá una parte extra a los alumnos que contribuyan al aprendizaje de sus compañeros:

  • Contribuciones al repositorio: añadiendo redacción más entendible, añadiendo ejemplos particulares a sus carreras, etc.
  • Actividad en el canal de Slack: contestando dudas de sus compañeros, iniciando discusiones para resolver problemas.

Profesor

Nombre: Saúl Caballero Ramírez

Correo: saul.caballero.ramirez@gmail.com

Correo alternativo: saul@nixtla.io

Referencias aprendizaje de máquina principales

  • James et al. (2023)
  • Hastie, Tibshirani, y Friedman (2017)
Hastie, Trevor, Robert Tibshirani, y Jerome Friedman. 2017. The Elements of Statistical Learning. Springer Series en Statistics. Springer New York Inc. https://hastie.su.domains/ElemStatLearn/.
James, Gareth, Daniela Witten, Trevor Hastie, Robert Tibshirani, y Jonathan Taylor. 2023. An Introduction to Statistical Learning: With Applications in Python. Springer Texts en Statistics. Cham: Springer. https://doi.org/10.1007/978-3-031-38747-0.