Tropiezos frecuentes en Data Mining
Data Mining a pesar de ser una disciplina "científica" posee mucho de artesanal. Un proyecto de modelización descriptiva o predictiva rara vez tiene un fin cierto y definitivo. Más bien, está constituido por una larga serie de ciclos de aproximación sucesiva que abunda en reformulaciones, prueba y error, intuición y especialmente, estrategia. El pensamiento estratégico es fundamental para lograr encontrar un buen camino, sin demasiados tropiezos, hacia la satisfacción del objetivo planteado. La ruta está llena de potenciales tropiezos que conviene evitar. Vamos a describir los más frecuentes.
Pocos datos
Es irónico que en una época de enorme cantidad de datos disponibles y donde uno de los principales argumentos de venta del data mining ha sido justamente la existencia de cuantiosos datos, uno de los tropiezos más frecuentes sea el de disponer de demasiado pocos datos. Sin embargo, este hecho es fácil de explicar. Las propiedades o sucesos interesantes para modelizar son justamente los muy poco frecuentes. Es poco útil modelizar (con una intención predictiva) sucesos que ocurren habitualmente. Si la propensión a la compra de un producto o servicio fuera suficientemente generalizada, y no un evento infrecuente, ¿para qué hacer un modelo o una campaña de marketing? Si el fraude fuera un suceso frecuente, no quedarían instituciones financieras y otras capaces de hacer modelos, habrían quebrado antes… Por lo tanto, la mayoría de los sucesos que vale la pena modelizar son infrecuentes, en muchos casos, muy infrecuentes. De allí el tropiezo frecuente de contar con demasiados pocos datos. Es importante que el analista se asegure antes de iniciar un proyecto de que cuenta con una cantidad apropiada de datos. Es inútil iniciar un proyecto con una cantidad insuficiente de datos.
Una sola técnica
Ser "especialista" en una sola técnica tiene algunas ventajas. Métodos como el análisis de regresión, redes neuronales o incluso árboles de decisión son muy ricos en parámetros, características, modalidades de uso, etc. Se requiere un conocimiento y experiencia considerables para su utilización experta. Son también métodos sumamente "potentes" en un sentido de capacidad modelizadora. En el caso de las redes neuronales, por ejemplo, existen teoremas que, bajo ciertas condiciones, afirman la "universalidad" de estas técnicas. Es comprensible de que haya analistas que trabajen utilizando solamente una de estas técnicas. Sin embargo, en la práctica esto puede ser limitante. Diversos estudios teóricos y prácticos no han sido capaces de producir conclusiones claras respecto de cuando una u otra técnica es apropiada (para qué tipo de problemas). Cada método ofrece perspectivas distintas e, incluso, complementarias sobre un problema y conjunto de datos. De modo que, en la práctica, emplear varias técnicas distintas enriquece un análisis y le permite al analista considerar un problema desde varios puntos de vista.
Sobreajuste
En el afán de obtener el modelo más preciso, más de una vez ocurre que el analista produce un modelo que "sobreajusta", es decir, un modelo bastante o muy preciso respecto del conjunto de entrenamiento usado, pero con una performance bastante peor sobre un conjunto de datos distinto, no utilizado para ajustar el modelo. Esto ocurre cuando se produjo o seleccionó un modelo que además de modelizar el suceso de interés incluyó también características idiosincráticas de la muestra de entrenamiento o "ruido" de esta muestra. Esto no solo no mejora un modelo sino que deteriora su capacidad predictiva cuando se aplica a otros conjuntos de datos pertenecientes a la misma población. Para evitar esta situación es fundamental la utilización de una muestra de validación, pero también de una medida de performance apropiada (en función del objetivo de la modelización y las propiedades de la variable target) y una interpretación correcta y experta de los diversos estadísticos y gráficos relevantes.
Sobrevalorar el "modelo campeón"
El "paradigma" habitual de modelización en data mining consiste en ajustar varios modelos a una muestra de entrenamiento y seleccionar aquel que posea la mejor performance predictiva. El problema es que aunque la medición se realice sobre una muestra de validación, esto no garantiza en absoluto obtener un modelo bueno o apropiado. Es necesario evaluar e interpretar un modelo a fin de determinar si es apropiado para el problema que se intenta resolver. Si no lo es, no hay modelo campeón que valga. Cuando esto ocurre, es fundamental diagnosticar la situación (muchas veces se trata de datos insuficientes, un problema mal planteado o algún otro tropiezo como los que se mencionan aquí) y volver a empezar.
Datos contaminados
¿Cómo se contaminan los datos? Utilizando variables que no estarán disponibles cuando quiera utilizar un modelo en producción. Estas variables tienen una correlación casi perfecta o directamente perfecta con la variable target (p. ej. la fecha de adquisición de un producto cuya propensión se quiere predecir). Muchas veces puede resultar obvio qué variables no debieran incluirse en una modelización, pero no siempre. Una señal de alarma es un modelo simple en el que una variable predictora genera una predicción perfecta. Durante las tareas de preparación y exploración de datos se debe estar especialmente atento a esta cuestión. Trabajar con datos contaminados es una pérdida de tiempo.
Datos atípicos
Los datos atípicos pueden tener un efecto nefasto sobre un modelo. Algunas técnicas de regresión, como las lineales, son particularmente sensibles a este problema. Durante la preparación y exploración de datos es importante estudiar y detectar el problema. También debe tenerse presente que "atípico" no es sinónimo de valor "extremo". Los valores extremos lo son en un sentido unidimensional, algo que es bastante más fácil de detectar. Los valores atípicos suelen serlo multidimensionalmente, algo que exige la utilización de técnicas estadísticas relativamente complejas para su detección (componentes principales, clustering, etc.).
Problemas heterogéneos
Un problema heterogéneo consiste en generar un modelo para un suceso de interés usando una población que si bien puede ser homogénea en algunos aspectos, no lo es respecto del suceso que se busca modelizar. Distintos segmentos de la población pueden poseer características lo suficientemente distintas como para hacer que las variables relevantes para una predicción sean diferentes o sus interacciones entre sí o con la variable target cambien cualitativamente. Hay que estar atento a las señales que marcan la posibilidad de la existencia de un problema heterogéneo porque sino, inevitablemente, la performance predictiva del modelo que obtendremos estará bastante por debajo de lo que hubiéramos podido lograr desarrollando modelos separados para cada segmento.
Subvaluar el conocimiento de dominio
Muchas veces, el analista de data mining no es un especialista del dominio específico en el que desarrolla sus modelos. Al menos no lo será durante cierto tiempo. Además, es probable que tenga una preferencia por hacer que "los datos hablen", en un sentido cuantitativo o estadístico, subvalorando conocimientos específicos de dominio que muchas veces no posee. Lamentablemente, los datos hablan en la forma de un "oráculo", sus mensajes requieren interpretaciones que muchas veces son subjetivas o diversas. Para comprender el mensaje correcto es fundamental complementar un conocimiento técnico solvente con un buen conocimiento de dominio que un experto seguramente podrá aportar.
Vía | SAS