Interpretable machine learning for promotional sales forecasting

Aguilar Palacios, Carlos

Interpretable machine learning for promotional sales forecasting

Aguilar Palacios, Carlos

Dirigida por:

José Luis Rojo Alvarez Director/a
Sergio Muñoz Romero Codirector/a

Universidad de defensa: Universidad Rey Juan Carlos

Fecha de defensa: 28 de junio de 2021

Tribunal:

Francisco Javier Gimeno Blanes Presidente/a
Maria del Pilar Talon Ballestero Secretario/a
Arantza Gorostiaga Vocal

Tipo: Tesis

Teseo: 670214 DIALNET TESEO editor

Resumen

Las ofertas y promociones son estrategias de marketing que las cadenas de supermercados emplean para estimular la demanda de productos. Consisten en una serie de tácticas diseñadas para motivar compras por parte de los consumidores. Las pro-mociones tienen un gran impacto en las ventas de productos. En Reino Unido, la Comisión de Mercados y Competencia estima que en los supermercados ingleses, las ofertas conllevan un incremento de las ventas en torno al 200%, e incluso algunas ofertas alcanzan incrementos del 3000%. Además del incremento en ventas, las ofertas también atraen nuevos clientes, generan asiduidad, tratan de neutralizar ofertas de los competidores y ayudan a reducir espacio de almacenamiento. La estimación de las ventas de ofertas y su efecto en otros productos es crucial, debido a que afecta a toda la cadena de distribución. La presente Tesis Doctoral se centra en el estudio, desarrollo y validación de métodos de Aprendizaje Máquina interpretable aplicado a ofertas en cadenas de hipermercados. En particular, se centra en tres tópicos: (T1) la predicción de ventas promocionales, (T2) la predicción de ventas promocionales en escenarios cold-start en los cuales no hay histórico de ventas y (T3) la cuantificación de canibalización en ventas de productos causada por ofertas. Los principales motivos para centrarnos en estas tres áreas se deben a que son problemas comunes que los analistas de ventas encuentran en su día a día. Además, tradicionalmente la investigación en Aprendizaje Máquina se ha focalizado en minimización de errores de predicción mientras que la interpretabilidad de las predicciones no ha tenido la misma importancia. Por ultimo, dotar de interpretabilidad tanto a la predicción de ventas como a sus efectos, puede resultar beneficiosa para muchos miembros de la cadena de distribución. Las etapas comunes a estos tres tópicos son las siguientes: (i) desarrollar y evaluar métodos sobre datos reales de ventas de diferente casuística, procedentes de distintos países, tipos de tiendas y categorías de productos; (ii) evaluar la interpretabilidad en modelos simulados donde el mecanismo generativo es conocido; (iii)comparar las soluciones obtenidas con el estado del arte y, en aquellos casos donde estén disponibles, comparar con las predicciones generadas por la cadena de supermercados; (iv) diseñar soluciones para ayudar a los analistas en la toma de decisiones; y, finalmente, (v) compartir en GitHub todas las soluciones para que otros investigadores y profesionales puedan beneficiarse de ellas. Los objetivos específicos del primer tópico, O1, son la creación, discusión y evaluación de la aplicabilidad de métodos interpretables a la predicción de ventas promocionales. En la misma línea, el segundo objetivo O2 considera el problema de predicción cold-start en promociones y su solución a través de métodos interpretables. Por ultimo, el tercer objetivo O3 se centra en el problema de la canibalización de ventas desde una perspectiva causal. La metodología seguida en esta tesis puede ser dividida en una metodología general aplicada a las tres áreas de investigación y una metodología específica para cada tópico. La metodología general puede dividirse en los siguientes puntos: (i) revisión extensiva de la literatura, (ii) preparación y validación de los datos, (iii) definición de las métricas de interés, (iv) definición de cota baja de precisión empleando un método simple, (v) definición cota alta de precisión empleando un método sofisticado encontrado en la búsqueda bibliográfica, (vi) diseñar modelos surrogados que permitan la evaluación de la interpretabilidad, (vii) investigar modelos que suplan las carencias de interpretabilidad de los métodos encontrados en la literatura, (viii) verificación mediante backtesting de la solución propuesta respecto de los modelos de alta y baja precisión. Finalmente, (ix) evaluación de los resultados, lo cual se aborda iterando los pasos anteriores hasta que la precisión se sitúe al menos entre las dos cotas. La metodología seguida en O1 implica a la investigación de métodos capaces de aprender métricas basadas en las observaciones manteniendo la interpretabilidad. Cuando esta investigación se llevó a cabo, la literatura sobre aprendizaje máquina en predicción promocional era apenas existente. Dada la ausencia de métodos interpretables cuyos resultados pueden ser fácilmente ajustados por el analista, el algoritmo de los k vecinos más próximos (k-NN) fue elegido como técnica fundacional sobre la cual construir un método interpretable de predicción promocional. La metodología de O2 se fundamenta en la investigación de métodos de predicción cold-start capaces de proporcionar interpretabilidad. Entre los métodos existentes para el cálculo de predicciones, los recientes métodos denominados Gradient Boosting Decision Tree (GBDT) mostraron unas prestaciones superiores a otros métodos en nuestros tests iniciales, sobretodo, en la precisión respecto a tiempo de cómputo. En el momento de realizar esta investigación, estas técnicas carecían de interpretabilidad a nivel de predicción. Consecuentemente, el tópico T2 se centró en dotar de interpretabilidad a varios métodos GBDT mediante explicaciones contrastivas. La metodología de O3 se enfocó en la investigación de métodos para la cuantificación de la canibalización de productos debido a promociones en supermercados. Se trata de un tema que no ha sido muy estudiado en la literatura y, sobre todo, no ha sido estudiado como un fenómeno causal. Por estos motivos, la metodología en este ultimo tópico ha consistido en el estudio y aplicación de métodos causales en series temporales. El método Causal Impact ha sido elegido como método fundacional sobre el que desarrollar un marco de trabajo para la detección y cuantificación de la canibalización promocional. Los resultados relevantes del objetivo O1 consisten en un método novel e interpretable basado en k-NN para la estimación de las ventas de una futura promoción. El método se centra en encontrar y puntuar automáticamente aquellas variables que han sido relevantes en las ventas históricas, y emplear esta información para encontrar vecinos que sean similares a la promoción a estimar. Al ser evaluado sobre un gran conjunto de datos reales, el método mejora significativamente las predicciones de la cadena de supermercados en diversas categorías y localizaciones geográficas. Las predicciones son presentadas como combinaciones de ventas históricas, con lo cual el analista puede modificar sus contribuciones. Del mismo modo, las promociones históricas son elegidas en virtud de sus características, valores que también pueden ser modificados. La interpretabilidad en el cálculo de promociones puede traducirse en beneficios para todos los integrantes de la cadena de distribución. Los resultados relevantes del objetivo O2 incluyen un método novel para generar predicciones cold-start, situación muy común en productos nuevos. La interpretabilidad es generada a través de explicaciones contrastivas congruentes provenientes de algoritmos GBDT, en particular, CatBoost, XGBoost, LightGBM y NGBoost. Los resultados en modelos surrogados demuestran que el método propuesto detecta las variables que contribuyen a las ventas y es capaz de seleccionar las promociones más similares a la actual para producir las explicaciones contrastivas. Los resultados en datos reales muestran que el método consigue una precisión cercana a métodos del estado del arte como AutoGluon o los propios GBDT mencionados anteriormente. Los resultados relevantes del objetivo O3 son un marco de trabajo que emplea inferencia causal para cuantificar el impacto de la canibalización debido a las promociones. Al contrario que otros métodos, el propuesto en esta tesis no requiere información previa acerca de los productos que pueden canibalizar. Todos los productos con ventas promocionales son analizados. Aquellas promociones que han resultado en ventas considerables son anotadas como posibles ofertas caníbal. A continuación, el método busca aquellos productos cuyas ventas hayan disminuido durante las ofertas caníbal, denominados productos víctima. Todos los pares caníbal-víctima son analizados con el método Causal Impact, que permite cuantificar efectos causales en series temporales. Los resultados, calculados sobre 3067 productos en 13 departamentos de 11 supermercados, indican un total de 1965 episodios de canibalización que se traducen en un total de 719 271 unidades no vendidas debido a este fenómeno. La canibalización promedio calculada para todos los productos es de un 31%. La presente tesis se centra en métodos interpretables de Aprendizaje Maquina aplicados a las ofertas y promociones en cadenas de hipermercados. Basándonos en los resultados y las publicaciones, puede concluirse que la presente tesis contribuye al avance en métodos interpretables. Los tres métodos desarrollados en la tesis se complementan al tratar diferentes aspectos del ciclo promocional. El primer objetivo consiste en un método capaz de calcular las ventas de promociones regulares. Se trata de un método online y ligero al no requerir grandes cantidades de datos para su entrenamiento. Estas propiedades son deseables en el ámbito promocional, donde el volumen de promociones regulares suele ser muy elevado, si bien depende del hipermercado. El método esta diseñado para los analistas, ya que las ventas se presentan como contribuciones de promociones históricas. A diferencia de otros métodos, el analista puede inspeccionar y modificar los resultados. El método resultante del segundo objetivo se centra en la predicción de promociones donde no existe histórico, situación que ocurre con productos nuevos, variaciones de los existentes o, por ejemplo, nuevos supermercados. La estimación de estas ventas es complicada y, en general, los analistas emplean horas buscando promociones o productos similares. Nuestro método presenta las predicciones como explicaciones contrastivas congruentes de modo que los analistas pueden entender las razones que fundamentan la predicción. Al igual que en el primer método, los analistas pueden modificar los parámetros que controlan la contribución de las promociones y sus variables. Por último, el marco de trabajo resultante de la tercera área de investigación permite cuantificar los efectos de promociones sobre otros productos. La aplicación práctica de la cuantificación de la canibalización ha sido demostrada sobre largos conjuntos de datos reales en varias cadenas de supermercados. Debido a que los episodios de canibalización son generalmente desconocidos, las interacciones entre productos se presentan como un grafo dirigido permitiendo entender la canibalización por departamentos al completo. Creemos que esta información es valiosa para los equipos de marketing y directores de supermercados. Estas tres herramientas pueden utilizarse conjuntamente para la ayuda a la toma de decisiones en sistemas de cálculo de promociones. El primer método se centra en promociones regulares que podemos llamar productos P1. El segundo método se centra en el cálculo de nuevos productos, llamémosles P2, a través de la búsqueda de similitudes con productos P1. Por último, el tercer método es capaz de cuantificar si existe un cambio en las ventas de productos P1 cuando los productos P2 son ofrecidos en promoción. Los resultados indican que los métodos de Aprendizaje Máquina interpretables tienen una precisión aceptable y son fáciles de manipular y depurar. Esperamos que este trabajo contribuya a la adopción de métodos interpretables en cadenas de hipermercados. Las reservas por parte de la industria a la adopción de sistemas llamados caja-negra puede superarse con métodos interpretables donde exista interacción entre humano y máquina, y además permitan al humano entender las consecuencias de modificar ciertos parámetros.