El experimento de IA fallado por la contaminación colaborativa 🚨
El experimento de A/B en IA falla cuando los usuarios comparten artefactos: las notas, los documentos o los PRs se roban entre equipos y el control se «contamina». Problema real: un lanzador solía habilitar un resumidor
Artículo
Una lectura sobre tecnología y sistemas digitales, escrita para ir al punto y dejar claras las ideas principales.
Tema principal
inteligencia artificial generativa
Fuente
dev.to
Puntos clave
- El experimento de A/B en IA falla cuando los usuarios comparten artefactos: las notas, los documentos o los PRs se roban entre equipos y el control se «contamina».
- Problema real: un lanzador solía habilitar un resumidor de reuniones a la mitad de las cuentas. En dos semanas, la métrica deseada de los usuarios control ya crecía, a pesar de que la función estaba desactivada allí. La
- Insight clave: En entornos colaborativos, la suposición de independencia (SUTVA) se rompe. Los efectos directos se mezclan con las filtraciones.
- Solución: Cluster Randomization
Bloque 1
El experimento de A/B en IA falla cuando los usuarios comparten artefactos: las notas, los documentos o los PRs se roban entre equipos y el control se «contamina».
Problema real: un lanzador solía habilitar un resumidor de reuniones a la mitad de las cuentas. En dos semanas, la métrica deseada de los usuarios control ya crecía, a pesar de que la función estaba desactivada allí. La causa? El contenido AI se filtraba por Slack, Drive y revisión de código.
Bloque 2
Insight clave: En entornos colaborativos, la suposición de independencia (SUTVA) se rompe. Los efectos directos se mezclan con las filtraciones.
Solución: Cluster Randomization • Asignar aleatoriamente a todas las cuentas de un espacio de trabajo a un mismo brazo. • Limitar la interferencia a dentro del mismo grupo de trabajo. • Modelar explícitamente el efecto de fuga con un modelo de dos exposiciones.
Bloque 3
Pasos prácticos (en un dataset sintético de 50 000 usuarios): 1. Asignación de clusters → 25 espacios de trabajo tratados, 25 control. 2. Etiquetar exposición → usuarios directos y “expuestos al colapso”. 3. Regresión OLS ingenua → subestima el efecto directo en ~16 % y subestima el error estándar. 4. Least Squares Ponderado por Clusters → errores estándar honestos. 5. Modelo de Dos Exposiciones → recupera efectos directos (+0.80 min) y de fuga (+0.20 min). 6. Bootstrap de Clusters → intervalos de confianza robustos.
Conclusión: Ignorar la estructura de colaboración produce decisiones erróneas de producto. El rótulo “A/B” necesita reinterpretarse cuando la colaboración es inherentemente interdependiente.
Bloque 4
¿Ustedes cómo están manejando la contaminación colaborativa en sus experimentos de IA?