Accueil > Articulos en castellano > ¿Cómo crear su población de aprendizaje en una clasificación?

¿Cómo crear su población de aprendizaje en una clasificación?

écrit par René Lefebure

23 nov

Traducion de Yolanda Albendea Lopez

 

 

A lo largo de mis misiones, he sido a menudo preguntado por encargados de estudios que me preguntaban cómo crear la muestra de aprendizaje.

Si tengo un 15% de compradores en mi población madre, puedo crear una muestra de aprendizaje 15/85 o una muestra 50/50?

 

Visiblemente los partidarios del 50/50 están más bien presentes en la literatura… y en las prácticas de la enseñanza de la clasificación con ficheros <análisis de crédito>.

 

 

Como mi compañero Sebastián me ha empujado varias veces a este razonamiento, he elegido responder sobre las ventajas e inconvenientes de dos enfoques, y bien, evidentemente no he podido evitar proponer un tercer método (¡para permanecer iconoclasta de la clasificación!). Para hacerlo simple, en la creación de bases de análisis para una clasificación distinguimos los <positivos> y los <negativos>.

 

 

¿Cuantos positivos y negativos debo poner en mi población?

 

Esa es la cuestión

 

 

En la metodología encontramos 3 escuelas:

 

 

1) El 50/50

– La lógica del 50/50 se justifica en los mecanismos de decisión basados en umbrales. En efecto, partiendo de 50/50, comprendemos que desde que la probabilidad supera el 0.5 predecimos el acontecimiento como <positivo> (por encima de 0.5 está bien y por debajo de 0.5 está menos bien). Si multiplicamos la nota por 200 encontramos el umbral de aceptación en 100… y los tramos de clasificaciones que permiten seguir a continuación los rendimientos (tasa de riesgo o retorno por décile).

 

El defecto de este tipo de clasificación es que no permite una simulación de retornos futuros…y que si hay una modificación importante de la tasa de <positiva> o <negativa>, nos arriesgamos a no percibir rápidamente (efecto retraso más importante).

 

 

 

2) El respeto del observado

La segunda escuela respeta la representatividad de la población de aprendizaje respecto a la población global. Así, si tenemos una tasa de retorno o de equipamiento del 15%… crearemos una muestra con 15 y 85.

 

 

La probabilidad reflejará una cierta capacidad de retorno o de concretización, así en el tramo de 0.25 a 0.3, esperamos una tasa de crecida o de equipamiento del 20 al 30%. Este enfoque permite por estudios de simulación definir el CUT que ofrece un buen rendimiento… así me hace falta una tasa mínima del 12% para alcanzar el ROI de mi operación, puedo establecer un modelo antes del envío de mis costes y mi margen.

 

 

El defecto es que el umbral <varía> por clasificación (en resumen no es una norma simple), pero una ventaja es percibir rápido la evolución con la mejora o la degradación de la tasa media (más reactividad).

 

 

3) La población « E dream »

 

 

Existe un caso en el que los dos enfoques no son posibles… cuando nos encontramos con un producto muy reciente sobre el cual las apuestas de desarrollo son importantes. En este caso podemos <estratificar> su muestra haciendo concordar el público objetivo y el objetivo.

 

 

Así si yo aspiro a un equipo del 15% de mis clientes… pero actualmente solo tenemos un 3%, multiplicaremos el peso de cada individuo poseedor por 5 (función weight en las herramientas)… lo que permitirá liberar zonas potenciales (por ejemplo regiones, territorios y entonces ajustar los objetivos). Nos proyectamos un poco más hacia <el objetivo> y nos despegamos de la realidad.

 

 

 

Al final

En todos los casos, podemos ordenar a los individuos con la nota de resultado, pero los métodos tienen impactos cuando se trata de elegir entre varios resultados (para determinar el producto a lanzar).

 


El más simple; el 50/50 tiene interés de jerarquizar una batería de resultado.. el producto prioritario se convierte en aquel con la nota máxima.

 

 

 

El más pesado: en la realidad, identificamos el producto prioritario modificando el resultado por un índice. Así, si la probabilidad de suscripción IARD es de 0.5 con una tasa de base de 0.25, el lift es de 2…y entonces seleccionamos el índice más fuerte (pero es más complejo de determinar que el máximo anterior.. y puede favorecer los productos <raros>).

 

 

 

En resumen estos enfoques responden a problemáticas diferentes:

 

 

 

-Población estratificada: población demasiado restringida y expresión de una visión de público objetivo

 

-Población 50/50; simplicidad de determinación del umbral y control de tramos de resultados de actuación

 

– Población real: complejidad de gestión de umbrales, pero precisión en el volumen de cargos <venideros> (llamadas entrantes, devoluciones, etc) y precisión de simulaciones.

 

…si queréis aportar vuestra evaluación sobre este punto, lo apreciaré…

 

 

Pas encore de commentaire

Faire un commentaire