No se corte solo (en Data Mining)
Los proyectos de data mining son proyectos de equipo, de un equipo interdisciplinario. Si un data miner no conoce los detalles "específicos" (de dominio) de un proyecto o si meramente recibe un conjunto de datos pero no conoce el contexto de los mismos, muy probablemente los errores, problemas y déficits del modelo que producirá serán tan notables que relativizarán o incluso inutilizarán la aplicabilidad del modelo. Es que no bastan los datos brutos, se requiere también mucha información de contexto, buena comprensión de los objetivos de un proyecto y su aplicabilidad posterior. Claramente, la parte más importante de la información necesaria no radica en los datos que ingresarán en un modelo sino en un vasto conocimiento de negocio que muchas veces el analista de data mining no posee, pero otras personas en la empresa sí. Algunas de estas son justamente buenas candidatas para incluir en un equipo de data mining.
¿Cómo debe estar conformado el equipo que respalde un proyecto de data mining? Obviamente se necesitan una o dos personas especialistas en data mining, pero el resto no tiene por qué serlo. Los demás deberán aportar el conocimiento que el miner habitualmente no posee: conocimiento de dominio y tal vez conocimiento sobre los recursos de información de la empresa. La conformación exacta del equipo dependerá del tipo de proyecto. Si este involucra cuestiones de marketing es probable que el conocimiento que puedan aportar quienes vienen haciendo esa tarea en la empresa sea importante, también especialistas o gerentes de los productos o servicios involucrados. Si el proyecto involucra cuestiones de precios, algún especialista en pricing puede ser fundamental. Además, es muy probable que un especialista de IT, con amplio conocimiento de las bases de datos y otros recursos de información existentes en la empresa sea muy importante.
La dinámica del grupo puede también ser muy variable y dependerá de su conformación, las características de sus integrantes y la naturaleza del proyecto. El grupo debe ser "interdisciplinario", de modo que los tecnicismos estadísticos o de data mining están fuera de lugar e, incluso, resultarían contraproducentes. Lo que se espera del miner es que pueda explicar simplemente cuál es el objetivo del proyecto, para o por qué se plantea su realización, y especialmente en qué podría ayudar al resto de los integrantes el que ellos lo ayuden a él. Estos deberían ser capaces de responder las distintas inquietudes del miner, suministrar información nueva específica a su área, hacer advertencias sobre problemas potenciales del proyecto desde su punto de vista, especialmente en su desarrollo y aplicación, sugerir estrategias de recolección de datos, reformulaciones de los objetivos, interpretaciones de los resultados y potenciales aplicaciones.
Además de ayudarle a corregir los objetivos de un proyecto, el planteo general o su aplicación, las contribuciones de los especialistas de dominio pueden ser fundamentales en áreas relativamente técnicas del proyecto. Para solo mencionar algunas:
- Recolección de datos. Cualquiera que haya llevado a cabo un proyecto de data mining sabe de lo engorroso de esta tarea. Puede llegar a constituir un 90% del tiempo empleado en un proyecto. Datos de múltiples fuentes deben ser identificados, probablemente transformados e integrados en una tabla única de análisis. La búsqueda de los datos apropiados, incluso con la ayuda de personas de IT, puede tomar muchísimo tiempo y su resultado es incierto. Los especialistas de dominio en su empresa probablemente tengan una idea mucho más clara de cuáles son las fuentes de datos apropiadas, sus características, etc., después de todo trabajan con estas fuentes todos los días.
- Interpretación y evaluación de datos. Conocer el nombre, tipo y distribución de valores de cada variable constituye una tarea importante para el data miner. Sin embargo, esto es claramente insuficiente para poder manejar en forma exitosa un conjunto de variables en un modelo. Es esencial poder interpretar cada variable en función del contexto (el problema que se desea resolver), conocer cuál es la escala de medición apropiada, como se relaciona con otras variables, etc. Algo que, evidentemente, los especialistas de dominio pueden aportar dentro de un equipo. Lograr un nivel equivalente de conocimiento le tomaría al data miner meses de trabajo y cometer no pocos errores que podrían perjudicar seriamente el proyecto o al menos su credibilidad. Existen muchas anécdotas al respecto. De una buena comprensión de las variables disponibles surgirán buenas elecciones para tareas importantes de preparación de datos como decidir qué estrategias usar para resolver el problema de los valores faltantes, cómo transformar variables con problemas distribucionales, qué hacer con los valores extremos o atípicos (e incluso detectarlos), generar nuevas variables, más informativas que las variables "brutas" (muchas veces tasas o índices que los especialistas conocen muy bien y son de uso común) e incluso qué variables seleccionar para un modelo.
- Selección de datos. La selección de variables y casos es una etapa fundamental para asegurar una modelización apropiada y relevante. Es bien conocido el aforismo "entra basura, sale basura". Esto no solo se refiere a la calidad de los datos sino, también, a los propios datos utilizados. El aporte de un equipo interdisciplinario es vital en este respecto.
- Desarrollo e interpretación de modelos. El desarrollo de modelos no es una tarea lineal, parecida al montaje de una fábrica en la que entran los insumos por un extremo, se introducen y ensamblan las piezas y sale por el otro extremo el producto terminado. Muy por el contrario, el desarrollo de modelos es una tarea iterativa de refinamiento progresivo con no pocas vueltas atrás. Data mining es un trabajo fundamentalmente exploratorio. En este proceso, muchas veces costoso, de desarrollo de un modelo apropiado y útil, la colaboración de especialistas es sumamente importante para hacer que la búsqueda sea lo más focalizada y eficiente posible.
- Presentación de los resultados. A menos que los proyectos de data mining ya hayan encontrado un nicho "natural" en una empresa, y el manejo y aplicación de modelos sea una actividad rutinaria (algo que todavía no es del todo frecuente), los proyectos de data mining hay que "venderlos" internamente. Esta promoción se basa en la presentación de sus resultados, pero hay que saber hacerlo, principalmente desde el punto de vista político. Por lo general, el data miner tiene un rol más técnico, más alejado de la política de una empresa, de modo que el aporte de los especialistas de dominio del equipo, en especial si tienen un rol gerencial, es crucial para orientar políticamente la venta interna de este tipo de proyectos.
En síntesis, un proyecto exitoso de data mining es el resultado de la colaboración de un equipo interdisciplinario de personas con distintos roles en la empresa. El data miner es el recurso más técnico, pero muchas veces es también el que posee menos conocimiento y experiencia en el dominio de aplicación del proyecto. Debe poder comunicarse eficazmente con el resto de los integrantes del equipo, para facilitar que estos puedan hacer los aportes que tanto necesita. Esto requiere de buenas estrategias comunicativas y también de una conocimiento mínimo razonable del dominio en el que trabajará, no tanto para sustituir al resto de los integrantes (y así cortarse solo, algo que nunca es una buena idea) sino para poder encontrar más fácilmente un "terreno común" con el resto del equipo. Para esto último, podrían serle útiles los siguientes cursos de capacitación:
Analytics aplicado a la industria bancaria
Analytics aplicado a la salud
Analytics aplicado a las telecomunicaciones
Analytics aplicado a manufactura
Data Mining Criminológico
Modelización del churn
Modelización predictiva para CRM
Vía | Prensa SAS