Grupo nutresa

Disminuir los tiempos en el proceso de limpieza y transformación de los datos para obtener su valor real a partir de la analítica avanzada.
Objetivo
Automatizar el proceso de transformación y limpieza de datos.
Solución
-Diseño e implementación de una arquitectura de ingesta de datos transaccional.
Grupo Nutresa nace en medio del desarrollo industrial Colombiano a principios del siglo XX, con la compañía Nacional de Chocolates Cruz Roja. A principios del siglo XXI inicia una transformación empresarial que la lleva a convertirse en lo que hoy es el grupo Nutresa, nombre que recoge todas las categorias de alimentos del grupo y fortalece el vinculo de todas sus marcas con la salud, nutrición y bienestar; enfocado en mejorar la calidad de vida del consumidor y el progreso de sus colaboradores.
La Gerencia de Inteligencia de Mercados y más concretamente la Dirección de Ciencia de Datos, venía desarrollando procesos de limpieza, transformación y enriquecimiento de diferentes fuentes de datos; dicha labor tomaba alrededor de 5 horas para categorizar millones de registros mensualmente; sin embargo, poder obtener el valor inmediato de la información recolectada día a día a través de fuentes externas y de sus canales de distribución, era imperativo. La estandarización de algunas características de sus productos, como: gramaje del mismo, marca, categoría, unidades por empaque, entre otros, le permite al proceso apoyar las estrategias de negocio para poder reaccionar efectivamente ante el cambiante comportamiento del mercado.
Gracias al auge de la analitica y los beneficios que esta aporta a las organizaciones, Nutresa ve necesaria su implementación con el fin de apoyar y fortalecer la toma de decisiones de las principales palancas organizacionales, en este caso Pricing al Comprador. En su desarrollo, la preparación de los datos siempre ha representado un reto, el cual normalmente se convierte en la etapa que más tiempo ocupa, tal cual lo mencionabamos en el parrafo anterior, es por ello que se hacía necesario el uso de herramientas adecuadas para facilitar el proceso.
Dichas herramientas debían permitir la escalabilidad y el crecimiento, ya que Nutresa esta teniendo un expansión considerable en diferentes geografías internacionales, lo cual implica generar modelos replicables que permitan llevar estas palancas de una manera ágil y dinámica a otros mercados.
En ese orden de ideas y necesidades, el Grupo comenzó a ejecutar el proceso con diferentes herramientas analíticas; sin embargo, no era tan eficiente como se requería. Gracias al trabajo conjunto ente el equipo de Ciencia de Datos de Nutresa y CALA Analytics se logró desarrollar un procesamiento de datos robusto, automatizado, óptimo y escalable, el cual permitió no solo reducir los tiempos de preparación de las fuentes sino también el índice o nivel de error al no haber manipulación manual de los datos. En este proyecto, se propusieron y trabajaron nuevos algoritmos, y gracias a la arquitectura existente del Grupo NUTRESA, también se tomaron modelos que ya se venían trabajando, mejorándolos y automatizándolos, alineando todo el proceso de análisis de datos al interior de la Gerencia de Inteligencia de Mercados.
Además de las victorias mencionadas anteriormente, el proceso también logró:
Centralizar su información.
Optimizar y automatizar sus proceso.
Almacenar de manera adecuada su información.
Generar una aplicación escalable y replicable en diferentes geografía.
Incorporar nuevas fuentes.
Llevar el proceso a la nube para una mayor accesibilidad.
Como parte de la optimización se trabajó con PostgreSQL como el sistema de base de datos relacional definido para soportar la ingesta de fuentes y la migración de ésta a la nube, permitiendo automatizar todo su ciclo de vida, desde su obtención, limpieza, indexación, diagramación, jerarquización, transformación, validación, hasta su acceso; entregando valor para la toma de decisiones de las áreas comerciales. PostgreSQL permitió estandarizar y dar un orden a los datos que se ingresan constantemente para que otros programas y colaboradores del Grupo puedan acceder y sacar provecho de los mismos.
Python fue el lenguaje de programación seleccionado para el desarrollo del modelo en el cual fueron separadas las consultas a la base de datos y las consultas propias del core de negocio, abriendo paso a su escalabilidad con base en el crecimiento del mismo. Este nuevo proceso permite trabajar con base en tablas temporales evitando guardar información en memoria y disminuyendo significativamente los tiempos en cada fase del modelo.
Hoy por hoy, el proceso tarda en promedio 10 min en ser ejecutado, permitiendo a las áreas de negocio del Grupo Nutresa tomar decisiones estratégicas de gestión. Todo esto a partir de un trabajo en conjunto con expertos del negocio y líderes técnicos haciendo que la analítica realmente suceda y aporte valor para la organización.