Evitar el sesgo de información en modelos analíticos

Al crear un modelo analítico ¿Realmente los datos existentes son los que necesitamos? Conoce cómo evitar el sesgo de información...

Al momento de hacer un análisis, generalmente al crear modelos analíticos, existe la tendencia de usar toda la información que se tiene disponible, buscando abarcar la mayor cantidad de variables, usando todas las fuentes disponibles en la compañía, con la esperanza de mejorar el poder predictivo de los modelos. El sesgo de información no utilizable ocurre cuando en los datos que estamos analizando se usan datos que no están (o estarán) disponibles en el momento en que se aplicaría el modelo que se está creando.

Con la definición de este sesgo, veamos dos situaciones que te ayudarán a evitar la aplicación de un modelo analítico con datos que no están disponibles:

Seguir leyendo este artículo

CASO #1

Históricamente se tienen las ventas de un producto y la Tasa Representativa del Mercado (TRM) del dólar a pesos. Se ha detectado una relación entre la TRM y las ventas. Los datos para crear el modelo se obtienen de forma mensual en una serie de tiempo.
En la ecuación del modelo final para predecir las ventas de un mes usa la TRM del mismo mes, por ejemplo: para predecir las ventas del mes de enero se usa la TRM del mes de enero. Si el mes actual es junio y se quiere pronosticar las ventas de los meses siguientes con el modelo creado, no se puede usar el modelo porque es necesario tener la TRM del mes de julio, la cual no se tendrá hasta el primero de agosto.
De forma similar para los siguientes meses se repite el comportamiento, lo cual ocasiona que tengamos un activo analítico inoperable.

CASO #2

Para predecir si un posible cliente comprará un producto de la compañía, se creó un modelo que usa la edad y otras variables como predictoras. Con el modelo se califican las bases de datos de posibles clientes que adquiere la compañía. La fuerza de venta centra los esfuerzos en los posibles clientes con mayor probabilidad de comprar.
El problema se genera cuando no se obtuvo la edad de las personas, por ejemplo, y sin este dato el modelo no las puede calificar y por ende son descartadas en el proceso. Este ejemplo es menos “doloroso” que el anterior, ya que el modelo es inoperante en solo una porción de los datos.

En conclusión

El no poder operar un modelo (en su totalidad o un porcentaje) porque se tienen datos con el sesgo de información no utilizable, es una pérdida de grandes recursos invertidos. Estos son algunos consejos y buenas prácticas que podrán ayudarte a reducir este sesgo:

1. No empezar a trabajar directamente con los datos. Es necesario entender el negocio, los objetivos planteados en el contexto a analizar, conocer el proceso actual y definir qué información se tiene y cual no, en el momento cero del proceso.

2. Si los datos perdidos detectados en la historia se van a seguir repitiendo de forma “natural” en el proceso, ya sea por errores humanos, mecánicos, de entendimiento, de procesamiento o por falta de respuesta, se deben desarrollar procesos de imputación de datos (en desarrollo y producción) o usar algoritmos de Machine Learning que permitan tomar el valor perdido como una categoría válida. Con esto se logra que al momento de aplicar el modelo se puedan calificar personas que tengan valores ausentes.

Escrito por:

Mauricio Mora Caballero – Cientifico de datos en CALA Analytics