Un estudio controlado demuestra que la IA ralentiza a los programadores expertos. ¿Cómo es eso posible?

En julio de 2025 se publicó un estudio que pasó bastante desapercibido fuera de los círculos académicos pero que merece mucha más atención de la que recibió. Lo llevó a cabo un equipo de investigadores — Joel Becker, Nate Rush, Elizabeth Barnes y David Rein — y sus conclusiones van directamente en contra de lo que casi todo el mundo da por sentado sobre la inteligencia artificial y la programación.

El resultado principal: cuando los desarrolladores usaban herramientas de IA, tardaban un 19% más en completar sus tareas que cuando trabajaban sin ellas. La IA no los hacía más rápidos. Los hacía más lentos.

Cómo se hizo el estudio

Lo primero que hay que entender es que esto no fue una encuesta ni un análisis de opiniones. Fue un ensayo controlado aleatorizado, el mismo tipo de metodología que se usa en ensayos clínicos de medicamentos. Eso lo hace mucho más fiable que la mayoría de las afirmaciones que circulan sobre productividad y herramientas de IA.

Los investigadores reclutaron a 16 desarrolladores experimentados que llevaban años contribuyendo a repositorios de código abierto de gran tamaño — proyectos con una media de más de 22.000 estrellas en GitHub y más de un millón de líneas de código. No eran principiantes aprendiendo a programar. Eran profesionales con años de experiencia en proyectos reales y complejos.

Cada desarrollador proporcionó una lista de tareas reales pendientes en su repositorio: correcciones de errores, nuevas funcionalidades, refactorizaciones. Tareas que formarían parte de su trabajo habitual. En total se recogieron 246 tareas, con una duración media de dos horas cada una. Luego, de forma aleatoria, a cada tarea se le asignaba una condición: con IA o sin IA. Cuando podían usar IA, los desarrolladores tenían acceso libre a las herramientas que quisieran — principalmente Cursor Pro con Claude 3.5 y 3.7 Sonnet, que eran los modelos más avanzados disponibles en ese momento. Cuando no podían, trabajaban exactamente como siempre habían trabajado antes de que existieran estas herramientas.

Los desarrolladores grababan su pantalla mientras trabajaban y registraban el tiempo total empleado en cada tarea. Se les pagaba 150 dólares por hora por participar.

El resultado y lo que lo hace especialmente llamativo

Con IA: un 19% más lentos. Eso ya es sorprendente. Pero lo que convierte este estudio en algo realmente revelador es lo que los propios desarrolladores creían que iba a pasar.

Antes de empezar, los desarrolladores estimaron que la IA los haría un 24% más rápidos. Después de terminar el estudio, habiendo experimentado en carne propia el ralentizamiento, seguían creyendo que la IA los había hecho un 20% más rápidos. La percepción y la realidad no solo eran distintas: eran opuestas. Y la experiencia directa no fue suficiente para corregir la percepción.

Eso es importante porque gran parte del debate sobre el impacto de la IA en la productividad se basa precisamente en lo que los usuarios dicen que sienten. Este estudio demuestra que esas percepciones pueden estar sistemáticamente equivocadas, y no por poco margen.

Por qué ocurre esto

Los investigadores analizaron 20 posibles factores que podrían explicar el ralentizamiento y encontraron evidencia de que cinco de ellos contribuyen de forma significativa. No entran en detalles exhaustivos sobre todos, pero el estudio descarta varios problemas metodológicos obvios: los desarrolladores usaban modelos de última generación, cumplían con las condiciones del experimento, y la calidad del código entregado era similar en ambas condiciones.

Hay algunas hipótesis que tienen sentido intuitivo. Trabajar con código abierto de alta calidad implica unos estándares muy exigentes: el código tiene que pasar revisión, estar bien documentado, seguir convenciones de estilo, incluir tests. Esos requisitos implícitos son difíciles de transmitir a una IA y fáciles de olvidar cuando dejas que ella tome las riendas. El resultado es que el desarrollador acaba revisando, corrigiendo y reescribiendo más de lo que habría tardado haciendo el trabajo directamente.

También es posible que haya una curva de aprendizaje significativa con herramientas como Cursor que solo aparece después de cientos de horas de uso, y que los desarrolladores del estudio, con pocas decenas de horas de experiencia con la herramienta, no habían llegado a ese punto. Pero eso también es una información relevante: si la IA solo ayuda después de una inversión de tiempo enorme, eso tiene que contar en la ecuación.

La brecha entre los benchmarks y la realidad

Los investigadores son honestos sobre las limitaciones de su estudio. No afirman que la IA ralentice a todos los programadores en todos los contextos. Su muestra es específica: desarrolladores experimentados trabajando en proyectos de código abierto complejos con estándares de calidad altos.

Pero sí señalan algo que merece reflexión: hay una brecha enorme entre lo que miden los benchmarks de IA — tareas autocontenidas, bien definidas, evaluadas algorítmicamente — y lo que ocurre en el trabajo real, donde las tareas son ambiguas, tienen contexto implícito y requieren criterio humano para evaluar si el resultado es realmente bueno. Los benchmarks pueden estar sobreestimando las capacidades reales de estas herramientas precisamente porque están diseñados para medir cosas que las IAs hacen bien, no las cosas que los programadores realmente necesitan hacer.

Al mismo tiempo, los informes anecdóticos — “la IA me ha cambiado la vida, ahora programo el doble de rápido” — pueden estar igualmente sesgados, como demuestra el propio estudio: los desarrolladores que participaron creían que la IA los había acelerado cuando en realidad los había ralentizado. La percepción subjetiva es una fuente de información poco fiable cuando se trata de medir el tiempo real invertido en tareas complejas.

Lo que esto conecta con el debate más amplio

Este estudio llega en un momento en el que el hype sobre la IA en programación está en su punto más alto. Hay una narrativa muy extendida — que hemos analizado en otros artículos de este blog — que dice que los programadores ya pueden describir lo que quieren en lenguaje natural, irse cuatro horas y volver con el trabajo hecho. Un artículo viral reciente describía exactamente eso como la nueva realidad.

Lo que este estudio añade al debate no es que la IA sea inútil. Es que la distancia entre cómo se percibe su impacto y cuál es su impacto real puede ser enorme, y que necesitamos métodos rigurosos para medirlo en lugar de depender de lo que la gente dice que siente. Las herramientas de IA para programación son genuinamente útiles en muchos contextos, especialmente para tareas repetitivas y bien definidas. Pero los contextos donde realmente brillan pueden ser más estrechos de lo que sugiere la narrativa dominante.

Los propios autores del estudio lo enmarcan de forma muy clara: planean repetir este experimento periódicamente para rastrear cómo evoluciona el impacto real de la IA a medida que los modelos mejoran. Si en algún momento la IA empieza a acelerar significativamente a desarrolladores en entornos como el que estudiaron, dicen, eso sería una señal de que la aceleración del desarrollo de IA en general podría estar llegando a un punto crítico. Por ahora, no estamos ahí.

Mientras tanto, la lección más inmediata es más sencilla: cuando alguien te diga que la IA lo hace todo más rápido, pregúntale cómo lo sabe.

Cómo se hizo el estudio

El resultado y lo que lo hace especialmente llamativo

Por qué ocurre esto

La brecha entre los benchmarks y la realidad

Lo que esto conecta con el debate más amplio

Leave a Reply Cancel reply