¿Mirando el p-value cada día? Estás creando falsos positivos 🤯
La mayoría de los equipos de producto cometen el mismo error: lanzan un experimento de 30 días, pero revisan los resultados cada mañana. El problema es que el p-value clásico solo es válido si te comprometes a mirar los
Artículo
Una lectura sobre tecnología y sistemas digitales, escrita para ir al punto y dejar claras las ideas principales.
Tema principal
ciencia de datos
Fuente
dev.to
Puntos clave
- La mayoría de los equipos de producto cometen el mismo error: lanzan un experimento de 30 días, pero revisan los resultados cada mañana.
- El problema es que el p-value clásico solo es válido si te comprometes a mirar los datos UNA sola vez, al final del plazo.
- Si haces "peeking" (mirar antes de tiempo) y detienes el test en cuanto ves significancia, inflas tu tasa de falsos positivos del 5% al 30%. Básicamente, estás lanzando funcionalidades que no funcionan basándote en ruido
- Como Tech Leads, no podemos permitir que el costo de oportunidad sea tan alto ni que el riesgo de errores sea tan ciego.
Bloque 1
La mayoría de los equipos de producto cometen el mismo error: lanzan un experimento de 30 días, pero revisan los resultados cada mañana.
El problema es que el p-value clásico solo es válido si te comprometes a mirar los datos UNA sola vez, al final del plazo.
Bloque 2
Si haces "peeking" (mirar antes de tiempo) y detienes el test en cuanto ves significancia, inflas tu tasa de falsos positivos del 5% al 30%. Básicamente, estás lanzando funcionalidades que no funcionan basándote en ruido estadístico.
Como Tech Leads, no podemos permitir que el costo de oportunidad sea tan alto ni que el riesgo de errores sea tan ciego.
Bloque 3
La solución es implementar Sequential Testing mediante mSPRT (mixture Sequential Probability Ratio Test):
• Sustituye el p-value por el e-value: una métrica que permite la parada opcional sin romper la validez estadística. • Inferencia siempre válida: puedes revisar los resultados cada hora o cada día y mantener el error Tipo I controlado al 5%. • Optimización de Time-to-Market: si una feature de IA realmente funciona, puedes detectarlo en el día 10 y lanzar inmediatamente, ahorrando 20 días de espera. • Basado en supermartingalas: matemáticamente garantiza que la probabilidad de cruzar el umbral por azar sea mínima.
Bloque 4
La estadística no debería ser un cuello de botella para el despliegue, sino una red de seguridad inteligente.
¿Ustedes siguen usando tests de muestra fija o ya implementaron pruebas secuenciales en sus flujos de experimentación?