Las limitaciones de la práctica de las reglas de asociación
Image via Wikipedia
El paradigma general del análisis de reglas de asociación es:
- Generar reglas de asociación limitando soporte y confianza.
- Seleccionar las reglas “interesantes” usando lift, confianza y soporte.
- Usar la “lógica del ítem ausente”: recomendar el ítem ausente en una regla aplicada a un segmento de clientes.
Sin embargo, este paradigma tiene serios problemas y limitaciones. No conocerlos y saber cómo superarlos conduce directamente a aplicaciones triviales o erróneas del análisis de reglas de asociación.
La cantidad de reglas obtenidas es función de la cantidad de transacciones, la cantidad de ítems y la composición de las transacciones. Cuanto mayor el número de reglas obtenido, más difícil es la selección de las reglas útiles o relevantes. Para la selección se utilizan las medidas de soporte, confianza y lift representadas en tablas o gráficos. Pero estas medidas son muchas veces insuficientes. Las reglas interesantes no pueden determinarse automáticamente a partir de lift, confianza o soporte. Las reglas con lift elevado frecuentemente representan “rarezas” que no son generales o suficientemente confiables (efectos de nicho). Las reglas con confianza elevada frecuentemente representan patrones conocidos por un especialista de dominio. Las reglas con soporte elevado son usualmente triviales o no interesantes. Las reglas que tienen lift, soporte y confianza elevados son raras.
Suele ser conveniente alguna tarea adicional para seleccionar reglas útiles, por ejemplo, ordenamiento de las reglas por rango en base a su valor potencial o real para el negocio, focalización en ítems o combinación de ítems de interés, etc. Las tareas adicionales requieren manipulación de la tabla de reglas (vía programación probablemente). Pero existe el inconveniente de que los datos relevantes para muchas de estas tareas adicionales no suelen incorporarse al análisis, aunque podrían ser muy valiosos: monto de la transacción, costo o ganancia de los ítems de la transacción, cantidad de ítems comprados, etc.
Además, la aplicación y especialmente utilidad de las reglas de asociación tienen una fuerte dependencia del dominio. Algunos ejemplos:
- Las reglas de asociación no son muy útiles en sectores donde la adquisición o tenencia de ítems depende fuertemente de campañas de marketing.
- No son útiles en sectores con adquisición o tenencia de pocos productos.
- En fraude, seguros y otros se buscan las combinaciones infrecuentes, no las frecuentes.
- Algunos problemas requieren identificar las asociaciones negativas, no las positivas.
- Problemas médicos, entre otros, requieren encontrar asociaciones positivas y negativas.
Estas cuestiones hacen que las reglas de asociación no sean buena elección para construir modelos de cross-selling en industrias como bancos minoristas porque las reglas terminan describiendo promociones previas. También en la industria bancaria minorista, los clientes típicamente inician con uno o dos productos. La diferenciación entre productos solo aparece cuando los clientes tienen más productos. Recién en ese momento puede ser interesante la aplicación de un análisis de reglas de asociación.
Las técnicas simples de análisis de asociación calculan el soporte para la combinación de tipos específicos de ítems. Estos soportes podrían no ser suficientemente grandes como para generar reglas. Este problema es tanto más probable cuanto mayor sea la diversidad de ítems. Sin embargo, si se calcula el soporte de la combinación de cualquier tipo de ítem dentro de categorías, el valor obtenido podría superar el umbral de soporte. Esto lleva a la utilización de reglas de asociación “generalizadas”, es decir, no solo entre los ítems individuales, sino entre ítems y clases de ítems (categorías) o incluso incorporando ítems “virtuales”. Una jerarquía puede también ayudar a evitar los efectos de ítems con frecuencias muy desiguales. Se agregan los ítems infrecuentes usando la jerarquía para generar clases de ítems más frecuentes, mientras que los ítems frecuentes se mantienen en su nivel.
Los ítems “virtuales” son características o propiedades que no forman parte de los ítems considerados o de una jerarquía de los mismos. Pueden ser características vinculadas a las transacciones (p. ej., día de la semana, modo de pago, etc.), a los clientes que realizaron las transacciones (características demográficas) o clases de ítems que atraviesan la jerarquía (por ejemplo, marcas, fabricantes, etc.). El propósito de los ítems virtuales es permitir que el análisis pueda usar información que va más allá de los ítems individuales o una jerarquía de productos.
Finalmente, el análisis de reglas de asociación puede ser una muy buena herramienta para caracterizar diferencialmente segmentos de clientes o para generar nuevas variables relacionales con las cuales alimentar modelos predictivos.
La práctica usual de análisis de reglas de asociación es la mencionada al principio, la que surge del paradigma de “ítem ausente”. Muy raramente se ve la utilización de las distintas técnicas y consideraciones mencionadas. Resulta, entonces, una aplicación insuficiente de esta herramienta.
Fuente: Por José Alvarez - SAS Argentina | Educación