¿Quién es el que mejor sabe usar Claude Code? La respuesta quizás no sea un programador

Título original: Programación agentica y retornos persistentes a la experiencia
Autor original: Anthropoic
Traducido por: Peggy

Autor original del artículo: Rhythm BlockBeats

Fuente original:

Reproducción: Mars Finance

Nota del editor: Este informe se basa en aproximadamente 400,000 sesiones de Claude Code, discutiendo cómo las herramientas de programación con IA están cambiando la relación entre las personas y el código.

El hallazgo central del artículo es: en la programación con agentes inteligentes, los humanos deciden principalmente "qué hacer", mientras que Claude se encarga de "cómo hacerlo". Los usuarios asumen la mayor parte de las decisiones de planificación, y Claude realiza la mayor parte del trabajo de ejecución. Es decir, la IA está asumiendo tareas como escribir código, modificar archivos, ejecutar comandos y depurar, pero la definición de objetivos y la evaluación de resultados siguen dependiendo de las personas.

Más importante aún, el efecto de usar Claude Code no depende solo de si el usuario es programador. El informe muestra que, en tareas de generación de código, usuarios en profesiones no técnicas como leyes, finanzas, gestión e investigación científica tienen tasas de éxito casi iguales a las de ingenieros de software. Lo que realmente influye en los resultados es si el usuario comprende el problema que quiere resolver.

Esto significa que la programación con IA reduce la barrera de entrada para la implementación, pero no la de juicio. En el futuro, personas que entiendan el negocio, el escenario, puedan expresar claramente sus necesidades y evaluar resultados, podrían usar la IA mejor que quienes solo saben programar. La IA no reemplazará automáticamente el conocimiento del dominio, sino que potenciará su valor.

A continuación, el texto original:

Hallazgos clave

Sobre la base de investigaciones previas, proponemos un marco para estudiar la programación interactiva con agentes inteligentes. Este marco se basa en un análisis de privacidad de aproximadamente 400,000 sesiones de Claude Code realizadas entre octubre de 2025 y abril de 2026, evaluando la composición de tareas, la colaboración entre humanos y IA, y la tasa de éxito de las tareas.

En una sesión típica, el humano se encarga de la mayoría de las decisiones de planificación, es decir, decide "qué hacer"; Claude se ocupa de la mayoría de las decisiones de ejecución, es decir, cómo hacerlo. Cuanto más fuerte sea la experiencia del usuario en un campo, mayor será la cantidad de trabajo que Claude realiza en respuesta a cada instrucción. En tareas de codificación, la tasa de éxito promedio de los principales grupos profesionales —es decir, si lograron hacer lo que originalmente querían—, con evidencia verificable como pruebas y envío de código, casi iguala a la de ingenieros de software.

Cuanto mayor sea la competencia del usuario en su campo, más probable será que la sesión termine con éxito. Sin embargo, la diferencia entre usuarios intermedios y expertos no es grande. En los siete meses que observamos, la proporción de sesiones para depuración cayó casi a la mitad, y el uso se desplazó hacia métodos más end-to-end: desplegar y ejecutar código, analizar datos y redactar documentación no relacionada con código.

En estos siete meses, el valor de las tareas típicas aumentó en casi todos los tipos de trabajo. Estimamos el valor económico de cada sesión comparando con tarifas en el mercado freelance, ajustando con datos reales de ofertas laborales públicas. Según este método, el valor promedio de las sesiones aumentó un 25% entre octubre y abril.

Introducción

La programación con agentes está emergiendo rápidamente. Desde finales de 2025, la proporción de proyectos en GitHub que involucran actividades de agentes de codificación se ha duplicado, y los usuarios de Claude Code ahora lo usan en promedio 20 horas por semana. ¿Pueden las personas sin experiencia formal en programación dirigir con éxito un agente para realizar tareas técnicas complejas? ¿Cómo afectará esta rápida adopción y mejora de capacidades a un trabajo más amplio basado en conocimientos? Aún no tenemos respuestas definitivas, pero podemos detectar algunas señales tempranas en los datos de uso de Claude Code.

Este informe se basa en un análisis de privacidad de aproximadamente 235,000 usuarios y 400,000 sesiones interactivas entre octubre de 2025 y abril de 2026, proporcionando evidencia sobre cómo se usa realmente Claude Code. Continúa nuestra investigación previa sobre indicadores de autonomía en sesiones de Claude Code y cómo estas cambian las dinámicas internas en Anthropic. Presentamos un marco para describir el uso de asistentes de IA interactivos: qué hacen las personas, quién hace qué, y si la tarea se completa con éxito. Nos centramos en el uso de Claude Code a través de interfaces de línea de comandos (CLI), Claude.ai o aplicaciones de escritorio. Al seguir cómo cambian los patrones de uso con la mejora del modelo, podemos entender mejor el impacto en programadores profesionales y en el mercado laboral de trabajadores del conocimiento.

Lo que sucede en Claude Code quizás predice el futuro del trabajo basado en conocimientos: los agentes se integrarán cada vez más en tareas no relacionadas con codificación. Encontramos que Claude está manejando tareas más complejas y valiosas. Al mismo tiempo, la división del trabajo en programación con agentes sigue siendo clara: los humanos deciden qué construir, los agentes deciden cómo construirlo.

También encontramos evidencia de que el verdadero amplificador de la efectividad de las herramientas es el conocimiento del dominio, no la habilidad en programación. En particular, los expertos en un campo tienen más éxito y recuperan más fácilmente de errores o malentendidos. Sin embargo, la diferencia entre usuarios intermedios y expertos no es grande. Esto indica que, con suficiente dominio en un área, casi cualquier persona puede usar estas herramientas de manera efectiva.

Estos hallazgos nos permiten observar posibles cambios en el mercado laboral. Nuestros datos muestran que el éxito depende de si la persona comprende el problema, no si tiene formación en programación. Si estos patrones se mantienen en toda la economía, significa que, aunque las herramientas de programación con agentes puedan absorber algunos trabajos orientados a la implementación, también recompensan a quienes entienden realmente los problemas que enfrentan. Programar agentes no reemplaza el conocimiento del dominio; más bien, cuanto más comprenda el trabajador, más trabajo de calidad podrá realizar con la IA.

División del trabajo

Qué hacen las personas con Claude Code

Para entender cómo usan Claude Code, clasificamos cada sesión en uno de nueve modos de trabajo, que describen la actividad principal. Cuatro de estos modos involucran directamente escribir o mantener código: construir algo nuevo, reparar algo dañado, probar código, y coordinar otros agentes o pipelines automatizados. Otro grupo se relaciona con operar software: desplegar, configurar, ejecutar pipelines y monitorear sistemas. Dos más se centran en entender qué hacer: comprender cómo funciona un sistema existente y planear cambios antes de actuar. Los últimos dos no involucran código directamente, o solo lo usan como apoyo: analizar datos y comunicar mediante presentaciones u otros documentos basados en texto.

Aproximadamente el 56% de las sesiones consisten en escribir código (25%), reparar código (26%) o probar y coordinar código (5%). Operar software representa el 17%, planear o explorar el tarea el 14%, y analizar o redactar textos el 13% (ver figura 1).

Primero, hacemos que el modelo lea los registros de la sesión y los clasifique; luego, usamos nuestra herramienta de análisis de privacidad para cruzar los resultados con los datos de telemetría automática, incluyendo si se añadieron o eliminaron líneas de código. La alta coherencia entre ambas fuentes confirma la precisión de la clasificación. Por ejemplo, en sesiones etiquetadas como creación o modificación de código, más del 90% también muestran cambios en telemetría. Ver apéndice para detalles.

¿Quién toma las decisiones?

¿Qué tan autónomo es Claude Code? La evaluación de capacidades muestra que su potencial ya es alto y sigue creciendo. Por ejemplo, en pruebas de referencia como METR, los modelos de vanguardia ahora pueden completar tareas de software que antes requerían horas humanas, superando obstáculos por sí mismos. Pero, ¿cómo funciona en la práctica? Aquí nos centramos en cuánto trabajo de guía realizan humanos y Claude en sesiones reales.

Abordamos esto desde dos perspectivas. Primero, cuánto confían las personas en que Claude tome decisiones; segundo, cuántas acciones asignan a Claude. Para entender la división de decisiones, construimos un clasificador de atribución de decisiones basado en la privacidad, que identifica todas las decisiones relevantes en una sesión y las clasifica en decisiones de planificación y de ejecución. Las decisiones de planificación incluyen qué hacer, qué método usar, qué significa completar; las de ejecución incluyen qué archivos modificar, qué código escribir, en qué lenguaje, y qué comandos ejecutar. Luego, el clasificador atribuye cada decisión a Claude o al usuario, y genera dos porcentajes: cuánto del trabajo de planificación y cuánto del de ejecución asume el usuario.

En promedio, los humanos toman aproximadamente el 70% de las decisiones de planificación, pero solo el 20% de las decisiones de ejecución (ver figura 2). En la práctica, la programación con agentes muestra una división clara: los humanos deciden qué construir, los agentes cómo hacerlo.

Para entender cuánto delegan en la acción, no analizamos el contenido, sino la estructura de la sesión. Una sesión típica consiste en intercambios entre Claude y el usuario: el usuario envía un prompt, Claude realiza acciones; luego, el usuario envía otro prompt, y así sucesivamente. En promedio, cada ronda tiene unas cuatro iteraciones. En los datos de octubre a abril, cada vez que el usuario envía un prompt, se activan en promedio unas 10 acciones de Claude, a veces más de 100. En cada ronda, Claude lee archivos, edita código, ejecuta comandos, y en promedio produce unas 2,400 palabras.

La cantidad de trabajo que Claude realiza entre dos revisiones por parte del usuario depende mucho de quién toma las decisiones. Cuando el usuario mantiene control sobre la ejecución, haciendo más del 80% de las decisiones de ejecución, Claude realiza menos acciones por ronda, unas 8. Cuando Claude asume el control de la planificación, haciendo más del 80% de esas decisiones, realiza hasta 16 acciones por ronda.

Nivel de competencia

Según cada sesión, Claude evalúa el nivel aparente de experiencia del usuario en esa tarea en una escala de cinco niveles, desde principiante hasta experto. El clasificador de experiencia se basa en tres señales: qué tan precisas son las instrucciones del usuario, qué pide que Claude verifique, y si el usuario corrige más a Claude o viceversa. Es importante notar que este nivel no es lo mismo que el puesto o la habilidad general del usuario, sino que es específico para cada tarea. Por ejemplo, un ingeniero senior que pregunte por Rust por primera vez puede considerarse principiante en esa tarea; en cambio, un contador que nunca ha usado Python, pero puede decirle a Claude qué reglas de conciliación deben seguirse en un script, y detectar errores en el cierre de fin de mes, sería un experto en esa tarea.

La tabla a continuación muestra cómo definimos los niveles en el clasificador, junto con ejemplos de solicitudes del conjunto de datos público SWE-chat. Las sesiones clasificadas como "principiante" contienen instrucciones genéricas sin conocimientos específicos del dominio; las de "experto" muestran un profundo entendimiento del código y del entorno técnico.

Hemos cuantificado cómo el nivel de experiencia se relaciona con la cantidad de acciones y la salida generada por cada prompt de Claude. En sesiones típicas de principiante, cada prompt activa unas 5 acciones y produce unas 600 palabras; en sesiones de experto, la cadena de acciones es más larga, con unas 12 acciones, y la salida alcanza unas 3,200 palabras, cinco veces más que en principiante (ver figura 3). La diferencia entre principiante y experto aparece en todos los tipos de trabajo y en todos los rangos de valor de tarea.

Estas métricas complementan nuestra investigación previa sobre la autonomía de Claude Code. Antes, rastreábamos cuánto tiempo operaba el agente y con qué frecuencia los usuarios aprobaban automáticamente sus acciones. Ahora, nuestros indicadores de atribución de decisiones capturan quién toma decisiones sustantivas en toda la sesión, y la cantidad de salida y acciones por prompt miden cuánto puede actuar de forma autónoma en respuesta a las instrucciones humanas.

¿Quién usa Claude Code y para qué?

Usuarios

Para entender quién realiza estas tareas, inferimos la profesión de cada usuario a partir de los registros de sesión, y la mapeamos a una de las 23 categorías principales del Sistema de Clasificación Ocupacional (SOC) del Buró de Estadísticas Laborales de EE. UU. El clasificador solo se basa en señales como: el contexto del proyecto cargado al inicio de la sesión, nombres y estructura de archivos, referencias a materiales o productos (como documentos legales, datos clínicos, informes financieros, materiales de cursos), y el vocabulario utilizado. Se especifica que no se debe considerar "escribir código" como evidencia de que el usuario sea programador. Solo si hay señales claras de que el trabajo involucra software o datos, la sesión se clasifica en la categoría "profesiones relacionadas con la computación y las matemáticas". Por ejemplo, si un abogado crea un script para verificar automáticamente la ausencia de cláusulas en contratos, aunque la tarea principal sea escribir software, se clasifica como profesión legal. Si no hay señales sobre la profesión del usuario, la sesión no se clasifica.

Podemos inferir la profesión en aproximadamente el 70% de las sesiones. Entre estas, la categoría más grande es "profesiones relacionadas con la computación y las matemáticas", lo cual no sorprende, pues abarca la mayoría del trabajo de software. Le siguen áreas como negocios y finanzas, arte y medios, gestión, y ciencias de la vida, física y sociales. En nuestra muestra, las profesiones no relacionadas con software que crecen más rápido son gestión, ventas y leyes.

Trabajo

Desde octubre de 2025 hasta abril de 2026, la composición del trabajo realizado con Claude Code cambió notablemente. La caída más significativa fue en sesiones para reparar código dañado, que bajaron del 33% al 19% (ver figura 4). En su lugar, aumentaron las tareas relacionadas con el código. La proporción de operaciones de software subió del 14% al 21%. La escritura y análisis de datos casi se duplicaron, pasando de aproximadamente 10% a 20%.

El valor de las tareas también aumentó. Estimamos el valor económico de cada sesión comparándolo con tarifas en el mercado freelance, ajustando con datos reales de ofertas laborales públicas. Según este método, el valor promedio de las sesiones creció un 27% entre octubre y abril. Este aumento se vio en diferentes tipos de trabajo: construcción, operación y reparación aumentaron en aproximadamente un 43%, 34% y 32%, respectivamente. Estas estimaciones son aproximadas, por lo que se usan principalmente para observar tendencias en el tiempo, no como valores en dólares precisos. Para detalles sobre cómo se construye esta estimación, ver apéndice.

El éxito depende de lo que aporta el usuario

Estimar el valor de la tarea ayuda a entender cómo Claude Code ayuda a completar trabajos. Otra perspectiva es cuántas sesiones tienen éxito y qué características se relacionan con el éxito. En todos los indicadores de éxito, se observa un patrón claro: cuanto mayor sea el nivel de experiencia del usuario en la sesión, mayor será la probabilidad de éxito. La mayor parte de la mejora se da en el rango de principiante a intermedio, siendo la diferencia entre estos dos grupos mayor que entre intermedio y experto.

Antes de analizar las características de sesiones exitosas, debemos definir qué significa éxito. No podemos observar los resultados en el mundo real ni preguntar directamente a los usuarios si lograron lo que querían. Por eso, usamos dos métodos complementarios basados en los registros de la sesión. El primero es una clasificación de "éxito verificado", que, tras leer toda la sesión, decide si el usuario logró su objetivo original, con categorías como éxito, parcial éxito, fracaso, o sin objetivo claro. Dos clasificadores asociados evalúan la evidencia: uno busca pruebas verificables de éxito, como commits, pull requests, pruebas pasadas y confirmaciones explícitas del usuario. Asigna una puntuación de 1 a 5, desde "sin señal" hasta "varias señales fuertes". El otro clasificador evalúa evidencia de fallo, como errores, fallos en pruebas, intentos repetidos o quejas del usuario. El éxito verificado requiere que ambas condiciones se cumplan: la sesión se considere exitosa y que exista al menos una señal verificable de éxito. En el análisis, excluimos las sesiones sin objetivo claro, que representan aproximadamente el 7.7% del total.

Retorno de la experiencia

Entonces, ¿qué sesiones tienen más probabilidades de éxito? Los resultados muestran que la puntuación de nivel de experiencia tiene un impacto importante en el éxito de la sesión.

Algunos podrían argumentar que el nivel de experiencia no es la causa real, sino que los expertos simplemente eligen tareas diferentes o tienen otras características. Para responder a esto, comparamos sesiones del mismo tipo de trabajo, con valores estimados similares, en el mismo mes, con temas similares, y del mismo grupo profesional. Esto ayuda a aislar el efecto del nivel de experiencia.

En todos los indicadores, cuanto mayor sea el nivel de experiencia aparente, mayor será la tasa de éxito. Las sesiones calificadas como principiante tienen un éxito verificado del 15% y un éxito parcial del 77%. Las calificadas como intermedias o superiores alcanzan tasas de éxito verificado del 28-33% y éxito parcial del 91-92% (ver figura 5).

La mayor parte de la mejora proviene de pasar de principiante a intermedio; la diferencia entre intermedio y experto es menor. Los detalles del análisis de regresión están en el apéndice.

Incluso en sesiones problemáticas, se observa una tendencia similar: cuando hay evidencia verificable de fallo, se considera que la sesión "tuvo problemas". Esto incluye errores, fallos en pruebas, intentos múltiples o frustración del usuario. En estas sesiones, tras controlar variables, la tasa de éxito verificado aumenta del 4% en principiantes al 15% en expertos (ver figura 5). Con métricas más laxas, la tasa de éxito parcial en principiantes es del 60%, y en intermedios y expertos del 80-81%.

También analizamos la relación inversa: cómo la experiencia afecta las diferentes métricas de fallo. Es importante notar que las sesiones consideradas fallidas son aquellas que no lograron ni siquiera un éxito parcial. Si una sesión problemática se considera fallida y no se escribió código, la llamamos "descartada". En sesiones que parecen de principiantes, el 19% termina así; en otros grupos, entre el 5% y el 7%. Esto indica que los usuarios con menos experiencia, al enfrentarse a dificultades, abandonan más fácilmente. La competencia en un área puede ayudar a guiar mejor al agente.

La profesión puede ser menos importante que la experiencia

La tasa de éxito verificada en sesiones relacionadas con software es aproximadamente del 30% para usuarios de profesiones técnicas, y del 26% para otros. En sesiones que generan código, al menos modificando o añadiendo líneas, estos números son 34% y 29% (ver figura 6). Con una definición más flexible de éxito, la diferencia entre profesiones técnicas y otras se reduce aún más. En esas sesiones, la proporción de éxito parcial es del 89% y 88%, respectivamente. La diferencia de cinco puntos porcentuales no es grande, y no ha cambiado mucho en siete meses, aunque ambas tasas han mejorado. En las diez principales profesiones en nuestro conjunto de datos, la diferencia con ingenieros de software en éxito no supera los siete puntos porcentuales. La gestión tiene la tasa más alta, ligeramente superior a la de ingeniería. Esto puede reflejar que las habilidades de gestión se transfieren a tareas de dirección de agentes. Pero también puede deberse a cómo medimos: la verificación depende en parte de la confirmación explícita del usuario, y los gestores quizás expresan más claramente cuando obtienen lo que quieren.

Perspectivas

Los resultados del informe dibujan un panorama en formación: la programación con agentes amplifica ciertas habilidades y conocimientos, mientras reemplaza otras. En tareas de generación de código, las tasas de éxito de las principales profesiones se parecen mucho a las de los profesionales técnicos. Parece que la programación de agentes hace que tener experiencia en programación sea menos relevante para completar tareas de codificación.

Al mismo tiempo, las sesiones exitosas muestran mayor dominio del conocimiento del área. Las sesiones calificadas como de experto tienen más del doble de éxito verificado que las de principiante. Cuando hay problemas, los principiantes abandonan mucho más que los demás. La forma de colaborar también aclara este panorama: los expertos en un campo pueden guiar a Claude con cada instrucción para que realice más trabajo. Por lo tanto, la capacidad de llevar a Claude al éxito depende más del dominio del área que de la habilidad para escribir código. Quienes tengan ese conocimiento, podrán realizar trabajos técnicos que antes no podían, usando la IA. Quienes carecen de esa comprensión, obtendrán menos beneficios con la misma herramienta. Además, la mayor parte de los beneficios provienen de la competencia, no de la maestría. Tener un entendimiento operativo en un área ya permite obtener la mayor parte de los beneficios; la especialización profunda solo aporta ventajas adicionales menores.

Estos hallazgos son preliminares. Como en la mayoría de nuestros estudios, no podemos medir resultados en el mundo real, como si el código generado se usa o se descarta, o si produce valor económico. Además, este informe excluye el uso no interactivo, que representa una parte significativa de la actividad total. Desarrollar un marco para medir ese uso será un trabajo futuro. También, todas nuestras clasificaciones dependen de que el modelo lea los registros de las sesiones. En el apéndice mostramos que el clasificador coincide en la mayoría de los casos con evaluaciones independientes, pero en escenarios a gran escala, validar estas clasificaciones sigue siendo difícil; las sesiones de Claude Code pueden ser largas y complejas, dificultando la anotación manual como referencia definitiva.

A medida que cambian los modelos, los usuarios y la división del trabajo entre ambos, las imágenes aquí presentadas seguirán actualizándose. Esperamos que estos indicadores nos ayuden a seguir los cambios importantes: si en el futuro el retorno de la experiencia empieza a disminuir, indicará que los modelos están tomando decisiones clave que antes solo hacían las personas, y los beneficios se extenderán desde expertos en el área a un público más amplio. Si la proporción de usuarios fuera de profesiones de software que logran completar sesiones de codificación sigue creciendo, podría significar que la producción de software se vuelve parte del trabajo cotidiano en todos los campos, y no solo de una profesión. Estos cambios modificarán quiénes se benefician de la programación con agentes y en qué medida, influyendo en las habilidades más valoradas en el mercado laboral.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado