¿Quién es el que mejor sabe usar Claude Code? La respuesta quizás no sea un programador

> Título original: Codificación agentica y retornos persistentes a la experiencia
> Autor original: Anthropoic
> Traducción: Peggy
>

Nota del editor: Este informe se basa en aproximadamente 400,000 sesiones de Claude Code, discutiendo cómo las herramientas de programación con IA están cambiando la relación entre humanos y código.

El hallazgo central es: en la programación con agentes inteligentes, los humanos deciden principalmente "qué hacer", mientras que Claude se encarga de "cómo hacerlo". Los usuarios asumen la mayor parte de las decisiones de planificación, y Claude realiza la mayor parte del trabajo de ejecución. Es decir, la IA está tomando el control de etapas como escribir código, modificar archivos, ejecutar comandos y depurar, pero la definición de objetivos y la evaluación de resultados siguen dependiendo de las personas.

Más importante aún, el efecto de usar Claude Code no depende solo de si el usuario es programador. El informe muestra que, en tareas de generación de código, usuarios de profesiones no técnicas como leyes, finanzas, gestión e investigación científica tienen tasas de éxito casi iguales a las de ingenieros de software. Lo que realmente influye en los resultados es si el usuario comprende el problema que quiere resolver.

Esto significa que la programación con IA reduce la barrera de entrada para la implementación, pero no la de juicio. En el futuro, las personas que entienden el negocio, el escenario, y pueden expresar claramente sus necesidades y evaluar resultados, podrían usar mejor la IA que quienes solo saben programar. La IA no reemplazará automáticamente el conocimiento del dominio, sino que potenciará su valor.

A continuación, el texto original:

Hallazgos clave

Basándonos en investigaciones previas, proponemos un marco para estudiar la programación interactiva con agentes inteligentes. Este marco se fundamenta en un análisis de privacidad de aproximadamente 400,000 sesiones de Claude Code entre octubre de 2025 y abril de 2026, evaluando la composición de tareas, la colaboración entre humanos y IA, y las tasas de éxito.

En una sesión típica, el humano se encarga de la mayor parte de la planificación, es decir, decide "qué hacer"; Claude se ocupa de la mayor parte de la ejecución, es decir, decide "cómo hacerlo". Cuanto mayor sea la experiencia del usuario en un campo específico, mayor será la cantidad de trabajo que Claude realiza en respuesta a sus instrucciones. En tareas de codificación, la tasa de éxito promedio —es decir, si lograron hacer lo que querían, con evidencia verificable como pruebas o envío de código— en diferentes profesiones se acerca a la de ingenieros de software.

Cuanto más competente sea el usuario en su dominio, más probable será que la sesión termine con éxito. Sin embargo, la diferencia entre usuarios intermedios y expertos no es grande. En los siete meses que observamos, la proporción de sesiones para depuración cayó casi a la mitad, y el uso se orientó hacia métodos más end-to-end: desplegar y ejecutar código, analizar datos, y redactar documentación no relacionada con código.

En estos siete meses, el valor de las tareas típicas aumentó en casi todas las categorías laborales. Estimamos el valor económico de cada sesión comparándolo con tarifas en el mercado freelance, ajustando con datos reales de ofertas laborales. Según esta métrica, el valor promedio de las sesiones aumentó un 25% entre octubre y abril.

Introducción

La programación con agentes está creciendo rápidamente. Desde finales de 2025, la proporción de proyectos en GitHub que involucran actividades con agentes de codificación se ha duplicado, y los usuarios de Claude Code ahora lo usan en promedio 20 horas por semana. ¿Pueden las personas sin experiencia formal en programación dirigir con éxito un agente para realizar tareas técnicas complejas? ¿Cómo afectará esta rápida adopción y mejora de capacidades a un trabajo más amplio basado en conocimientos? Aún no tenemos respuestas definitivas, pero los datos de uso de Claude Code ofrecen algunas señales tempranas.

Este informe se basa en un análisis de privacidad de aproximadamente 235,000 usuarios y 400,000 sesiones interactivas entre octubre de 2025 y abril de 2026, proporcionando evidencia sobre el uso real de Claude Code. Continúa nuestra investigación previa sobre indicadores de autonomía en sesiones de Claude Code y cómo estas cambian las dinámicas internas en Anthropoc. Presentamos un marco para describir el uso de asistentes de programación IA interactivos: qué hacen las personas, quién hace qué, y si el trabajo tiene éxito. Nos centramos en el uso de Claude Code a través de interfaces de línea de comandos (CLI), Claude.ai o aplicaciones de escritorio. Al seguir cómo cambian las formas de uso con la mejora del modelo, podemos entender mejor el impacto en programadores profesionales y en el mercado laboral de trabajadores del conocimiento.

Lo que sucede en Claude Code puede predecir el futuro del trabajo basado en conocimientos: los agentes se integrarán gradualmente en tareas no relacionadas con codificación. Encontramos que Claude está manejando tareas más complejas y valiosas. Al mismo tiempo, la división del trabajo en programación con agentes sigue siendo clara: los humanos deciden qué construir, los agentes deciden cómo construirlo.

También encontramos evidencia de que el verdadero amplificador de la efectividad de las herramientas es el conocimiento del dominio, no la habilidad en programación. En particular, los expertos en dominio tienen más éxito y son más capaces de recuperarse de errores y malentendidos. Sin embargo, la diferencia entre usuarios intermedios y expertos no es grande. Esto indica que, con suficiente competencia en un campo, casi cualquier persona puede usar estas herramientas de manera efectiva, como un experto profundo.

Estos hallazgos nos permiten observar posibles cambios en el mercado laboral. Nuestros datos muestran que el éxito depende de si la persona comprende el problema que quiere resolver, no solo de si ha sido entrenada en programación. Si estos patrones se mantienen en toda la economía, significa que, aunque las herramientas de programación con agentes puedan absorber algunos trabajos orientados a la implementación, también recompensan a quienes realmente entienden los problemas que enfrentan. La codificación con agentes no reemplaza el conocimiento del dominio; más bien, cuanto más comprenda el trabajador el problema, mejor podrá el agente realizar trabajos de alta calidad.

División del trabajo

Qué hacen las personas con Claude Code

Para entender cómo usan Claude Code, clasificamos cada sesión en uno de nueve modos de trabajo, que mejor describen el objetivo principal de esa sesión. Cuatro de estos modos involucran directamente escribir o mantener código: construir algo nuevo, reparar algo dañado, probar código, y coordinar otros agentes o pipelines automáticos. Otro grupo se relaciona con operar software: desplegar, configurar, ejecutar pipelines y monitorear sistemas. Dos más se centran en entender "qué hacer": comprender cómo funciona un sistema existente y planear cambios antes de actuar. Los últimos dos están menos relacionados con código, o solo usan código como apoyo: analizar datos y comunicar mediante presentaciones y otros documentos basados en texto.

Aproximadamente el 56% de las sesiones consisten en escribir código (25%), reparar código (26%), o probar y coordinar código (5%). Operar software representa el 17%, y planear o explorar el tarea el 14%, mientras que analizar datos y redactar textos suman alrededor del 13% (ver figura 1).

> Figura 1: Los nueve modos de trabajo. Cada sesión interactiva se clasifica en el modo que mejor describe su objetivo.

Primero, hacemos que el modelo lea los registros de la sesión y los clasifique; luego, usamos nuestra herramienta de análisis de privacidad para cruzar los resultados con los datos de telemetría automática, incluyendo si se añadieron o eliminaron líneas de código. La alta coherencia entre ambas fuentes confirma la precisión del método. Por ejemplo, en sesiones etiquetadas por nuestro clasificador como creación o modificación de código, más del 90% también muestran cambios en telemetría. Ver apéndice para detalles.

¿Quién toma las decisiones?

¿Con qué autonomía trabaja Claude Code? La evaluación de capacidades muestra que su potencial máximo ya es alto y sigue creciendo. Por ejemplo, en benchmarks como METR, los modelos de vanguardia ahora pueden completar tareas de software que antes requerían horas humanas, y superar obstáculos por sí mismos. Pero, ¿cómo funciona en la práctica? Aquí, nos centramos en cuánto guían los humanos a Claude en sesiones reales.

Abordamos esto desde dos perspectivas. Primero, cuánto delegan las personas en Claude; segundo, cuántas acciones asignan a Claude. Para entender la división de decisiones, construimos un clasificador de atribución de decisiones basado en la privacidad, que identifica todas las decisiones relevantes en una sesión y las divide en decisiones de planificación y de ejecución. Las decisiones de planificación incluyen qué hacer, qué método usar, qué significa completar; las de ejecución, qué archivos modificar, qué código escribir, en qué lenguaje, y qué comandos ejecutar. Luego, el clasificador atribuye cada decisión a Claude o al usuario, y genera dos porcentajes: cuánto de las decisiones de planificación y de ejecución asume el usuario.

En promedio, los humanos toman aproximadamente el 70% de las decisiones de planificación, pero solo el 20% de las decisiones de ejecución (ver figura 2). En la práctica, la programación con agentes muestra una división clara: los humanos deciden qué construir, los agentes cómo hacerlo.

Para entender cuánto delegan en acciones, no analizamos el contenido, sino la estructura de la sesión. Las sesiones de Claude Code consisten en intercambios entre Claude y el usuario: el usuario envía instrucciones, Claude realiza acciones; luego, el usuario envía la siguiente instrucción, y así sucesivamente. En sesiones típicas, hay unas cuatro rondas. En nuestros datos de octubre a abril, cada instrucción del usuario suele activar unas 10 acciones de Claude, a veces más de 100. En cada ronda, Claude lee archivos, edita código, ejecuta comandos, y en promedio produce unas 2,400 palabras.

La cantidad de trabajo que Claude realiza entre revisiones por parte del usuario depende mucho de quién toma las decisiones. Cuando el usuario mantiene el control de la ejecución, haciendo más del 80% de las decisiones de ejecución, Claude realiza menos acciones, unas 8 por ronda. Cuando Claude asume el control de la planificación, haciendo más del 80% de esas decisiones, realiza hasta 16 acciones por ronda.

> Figura 2: Proporción de decisiones de planificación y ejecución atribuidas a Claude. La figura muestra la distribución en diferentes sesiones, en función de si las decisiones de planificación (qué hacer) y de ejecución (cómo hacerlo) son atribuidas a Claude o al usuario. En sesiones típicas, el usuario realiza aproximadamente el 70% de las decisiones de planificación, y Claude el 80% de las decisiones de ejecución.

Nivel profesional

Según cada sesión, Claude evalúa el nivel de experiencia aparente del usuario en esa tarea en una escala de cinco niveles, de novato a experto. El clasificador de experiencia se basa en tres señales: qué tan precisas son las instrucciones del usuario, qué pide que verifique Claude, y quién corrige a quién más frecuentemente. Es importante notar que este nivel profesional no es lo mismo que la posición o capacidad general del usuario, sino que es específico para cada tarea. Por ejemplo, un ingeniero senior que pregunta por Rust por primera vez puede ser un novato en esa tarea; una contadora que nunca usó Python, pero puede decirle a Claude qué reglas de conciliación deben seguirse en un script, y detectar errores en el cierre mensual, sería una experta en esa tarea.

La tabla a continuación muestra cómo definimos los niveles en el clasificador, y ejemplos de solicitudes en el conjunto de datos público SWE-chat. Las conversaciones clasificadas como "novato" contienen instrucciones genéricas sin conocimientos específicos del dominio; las de "experto" muestran un profundo entendimiento del código y del entorno técnico.

> Tabla 1: Clasificación de niveles profesionales. Ejemplos de conversaciones reales, modificadas, anonimizadas y comprimidas, etiquetadas por nuestro clasificador. Muchos ejemplos provienen del conjunto de datos público SWE-chat.

Hemos cuantificado la relación entre nivel profesional, cantidad de actividad generada por cada instrucción, y la complejidad de las salidas. En sesiones típicas de novato, cada instrucción activa unas 5 acciones y produce unas 600 palabras; en sesiones de experto, el número de acciones se duplica, llegando a unas 12, y la cantidad de texto a unas 3,200 palabras, cinco veces más (ver figura 3). La diferencia entre novatos y expertos aparece en todos los tipos de trabajo y en todos los rangos de valor de tarea.

Estos indicadores complementan nuestra investigación previa sobre la autonomía de Claude Code. Antes, rastreábamos cuánto tiempo operaba el agente y con qué frecuencia los usuarios aprobaban automáticamente sus acciones. Ahora, nuestros indicadores de atribución de decisiones capturan quién toma decisiones sustantivas en toda la sesión, y la cantidad de actividad generada por cada instrucción refleja cuánto puede actuar de forma autónoma Claude en respuesta a las órdenes humanas.

> Figura 3: Con usuarios más profesionales, Claude realiza más trabajo por instrucción. Cuanto mayor sea el nivel profesional, mayor será el número de acciones (barra izquierda) y la cantidad de texto generado (barra derecha) por cada instrucción. La caja muestra el rango intercuartílico, la línea mediana, y los puntos blancos la media geométrica. Ambas tendencias son estadísticamente significativas (p < 0.001), y cada paso en nivel profesional también lo es. Tras controlar por modo de trabajo, valor de tarea, mes, profesión y serie del modelo, y ajustar por agrupamiento de usuarios, la tendencia sigue siendo significativa: cada nivel adicional aumenta en un 9% las acciones y en un 13% la cantidad de texto.

¿Quién usa Claude Code y para qué?

Usuarios

Para entender quién realiza estas tareas, inferimos la profesión de cada usuario a partir de los registros de sesión, y la asignamos a una de las 23 categorías principales del sistema de clasificación laboral de EE. UU. (SOC). El clasificador solo se basa en señales como: contexto inicial cargado en la sesión, nombres y estructura de archivos, referencias a materiales o productos (como documentos legales, datos clínicos, informes financieros, materiales de cursos), y vocabulario empleado. Se especifica que "escribir código" en sí mismo no indica que el usuario sea programador. Solo si hay señales claras de que la actividad principal es trabajo de software o datos, se clasifica en la categoría "profesiones de computación y matemáticas". Por ejemplo, si un abogado crea un script para verificar automáticamente la ausencia de cláusulas en contratos, aunque la sesión sea principalmente de codificación, se clasifica como profesional legal. Si no hay señales del oficio del usuario, la sesión no se clasifica.

Podemos inferir la profesión en aproximadamente el 70% de las sesiones. Entre estas, la categoría más grande es "profesiones de computación y matemáticas", lo cual no sorprende, pues abarca la mayoría del trabajo en software. Le siguen áreas como negocios y finanzas, arte y medios, gestión, y ciencias de la vida, física y sociales. En nuestra muestra, las categorías que más crecen fuera del ámbito del software son gestión, ventas y leyes.

Trabajo

De octubre de 2025 a abril de 2026, la composición de tareas realizadas con Claude Code cambió notablemente. La mayor disminución fue en sesiones para reparar código dañado, que bajó del 33% al 19% (ver figura 4). En su lugar, aumentaron las tareas relacionadas con código. La proporción de operaciones de software subió del 14% al 21%. La escritura y análisis de datos casi se duplicaron, pasando de aproximadamente 10% a 20%.

El valor de las tareas también aumentó. Estimamos el valor económico de cada sesión comparándolo con tarifas en el mercado freelance, ajustando con datos reales de ofertas laborales. Según esta métrica, el valor promedio de las sesiones creció un 27% entre octubre y abril. Este aumento se vio en varias categorías laborales: construcción, operación y reparación, con incrementos del 43%, 34% y 32%, respectivamente. Estas estimaciones son aproximadas, y se usan principalmente para observar tendencias, no como valores en dólares exactos. Para detalles sobre cómo se construyen estas estimaciones, consultar el apéndice.

> Figura 4: Cambios en la composición y valor de tareas con Claude Code entre octubre de 2025 y abril de 2026. La figura muestra la proporción de diferentes modos de trabajo en sesiones durante siete meses. La proporción de reparación de código dañado bajó del 33% al 19%, mientras que operaciones, análisis y documentación aumentaron.

El éxito depende de lo que aporta el usuario

Estimar el valor de las tareas ayuda a entender cómo Claude Code ayuda a las personas a completar su trabajo. Otra forma es analizar cuántas sesiones son exitosas y qué características se asocian con el éxito. En todos los indicadores de éxito, aparece un patrón claro: cuanto mayor sea el nivel profesional del usuario, mayor será la probabilidad de éxito en la sesión. La mayor parte de la mejora se da en el rango de novatos a intermedios, siendo la diferencia entre estos y los expertos menor que la de novatos a intermedios.

Antes de analizar las características de sesiones exitosas, debemos definir qué consideramos éxito. No podemos observar los resultados en el mundo real ni preguntar directamente si lograron lo que querían. Por eso, usamos dos métodos complementarios basados en registros: uno, que clasifica si la sesión fue exitosa, parcialmente exitosa, fallida o sin objetivo claro; y otro, que evalúa la evidencia verificable de éxito, como commits, pull requests, pruebas pasadas, y confirmación explícita del usuario. La evaluación de éxito requiere que ambas condiciones se cumplan: que la sesión sea considerada exitosa y que exista al menos una señal verificable de éxito. Se excluyen sesiones sin señales verificables, que representan aproximadamente el 7.7% del total.

Recompensa por nivel profesional

¿Son las sesiones con usuarios más profesionales más propensas a tener éxito? La respuesta es sí, y la influencia del nivel profesional en el éxito es significativa.

Algunos podrían argumentar que el nivel profesional no es la causa real, sino que los expertos simplemente trabajan en tareas diferentes o tienen otras características. Para responder, comparamos sesiones del mismo tipo de tarea, con valores similares, en el mismo mes, con temas similares, y del mismo grupo profesional. Esto ayuda a aislar el efecto del nivel profesional.

> Tabla 2: Definiciones de éxito y fracaso derivadas del clasificador. Ejemplos de conversaciones reales del conjunto SWE-chat, modificadas y anotadas por nuestro clasificador.

En todos los indicadores, cuanto mayor sea el nivel profesional del usuario, mayor será la probabilidad de éxito. Las sesiones calificadas como "novato" tienen un éxito en "éxito verificado" del 15%, y un 77% en al menos parcial éxito. En cambio, las de nivel intermedio y superior alcanzan tasas de éxito verificadas del 28% a 33%, y de éxito parcial del 91% a 92% (ver figura 5).

La mayor parte de las ganancias se dan en la transición de novato a intermedio; la diferencia entre intermedios y expertos es menor. Los detalles del análisis estadístico están en el apéndice.

> Figura 5: Relación entre nivel profesional y resultados de la sesión. La figura muestra, en cinco niveles de novato a experto, la proporción de sesiones con éxito, fracaso, y otros resultados, controlando por modo de trabajo, valor de tarea, mes, tema y profesión. Solo se consideran sesiones con señales verificables de éxito o fracaso, excluyendo las sin objetivo claro. Las líneas de error representan intervalos de confianza del 95%. La tendencia se mantiene tras ajustar por variables, y la diferencia entre niveles es estadísticamente significativa.

Incluso en sesiones con dificultades, se observa una tendencia similar: cuando hay evidencia verificable de fallo, la sesión se considera "con problemas". Esto incluye errores, fallos en pruebas, intentos repetidos, o insatisfacción del usuario. En estas sesiones, la tasa de éxito verificable aumenta del 4% en novatos al 15% en expertos (ver figura 5). Con métricas más laxas, la tasa de éxito parcial en novatos es del 60%, y en usuarios intermedios y expertos, del 80% a 81%.

También analizamos la relación inversa: cómo el nivel profesional afecta las diferentes métricas de fallo. Es importante notar que, en este análisis, las sesiones consideradas fallidas son aquellas sin ningún éxito parcial. Si una sesión con problemas no genera código y se abandona, se cuenta como abandonada. En sesiones donde el usuario parece novato, el 19% termina abandonando, frente a solo el 5-7% en otros grupos. Esto sugiere que los menos experimentados, al enfrentarse a dificultades, abandonan con mayor facilidad. La competencia en el dominio parece ayudar a guiar mejor al agente en la dirección correcta.

La profesión puede ser menos importante que el nivel profesional

Usuarios en profesiones relacionadas con software tienen una tasa de éxito verificable del 30%, frente al 26% de otros. En sesiones que generan código, estas cifras son 34% y 29%, respectivamente (ver figura 6). Con definiciones más laxas, la diferencia entre profesiones se reduce aún más. En esas sesiones, la proporción de éxito parcial es del 89% y 88%. La diferencia de cinco puntos porcentuales no ha cambiado en siete meses, y no muestra tendencia a aumentar o disminuir. En las diez profesiones más grandes del conjunto, la diferencia con ingenieros de software en éxito no supera los siete puntos porcentuales. La gestión tiene la tasa más alta, quizás porque las habilidades de gestión se transfieren a la dirección de agentes. Pero también puede deberse a cómo medimos: la confirmación en la sesión depende en parte de la expresión explícita del usuario, y los gestores pueden ser más propensos a confirmar resultados deseados.

> Figura 6: Tasa de éxito en sesiones de codificación, según profesión inferida, en función de éxito definido por clasificación. La figura muestra, en las diez profesiones principales, la proporción de sesiones con éxito o éxito verificable, en sesiones que al menos modificaron una línea de código. La diferencia con usuarios de "profesiones de computación y matemáticas" (SOC) no supera los siete puntos porcentuales, con intervalos de confianza del 95%.

Perspectivas

Los resultados del informe delinean un escenario en formación: la programación con agentes amplifica ciertas habilidades y conocimientos, y reemplaza otras. En sesiones de generación de código, las tasas de éxito de diferentes profesiones se parecen mucho a las de los profesionales de software. Parece que la programación con agentes hace que la experiencia en programación sea menos determinante para completar tareas de codificación.

Al mismo tiempo, las sesiones exitosas tienden a mostrar mayor conocimiento del dominio. Las sesiones de expertos tienen más del doble de éxito verificado que las de novatos. Cuando hay problemas, los novatos abandonan mucho más. La forma de colaborar también aclara este panorama: los expertos en dominio pueden guiar a Claude con cada instrucción para que realice más trabajo. Por lo tanto, la capacidad de llevar a Claude al éxito depende más del dominio que de la habilidad para escribir código. Quien tenga un buen conocimiento del campo puede realizar tareas que antes parecían imposibles. Quienes carecen de esa comprensión, aunque usen la misma herramienta, obtendrán menos beneficios. La mayor parte de los beneficios provienen de la competencia, no de la maestría. Entender operativamente un dominio ya proporciona la mayor parte del valor; la especialización profunda solo aporta ventajas adicionales mínimas.

Estos hallazgos son preliminares. Como en la mayoría de las investigaciones, no podemos medir resultados en el mundo real, como si el código generado se usa o se descarta, o si produce valor económico. Además, este informe excluye el uso no interactivo, que representa una parte importante de la actividad total. Desarrollar un marco para medir ese uso será un trabajo futuro. También, todas las clasificaciones dependen de la lectura del modelo sobre los registros de sesión. En el apéndice mostramos que el clasificador y los datos de telemetría se mantienen coherentes en la mayoría de los casos, y en muchos coinciden con evaluaciones humanas. Sin embargo, en escenarios a gran escala, validar estos clasificadores sigue siendo difícil; las sesiones de Claude Code pueden ser largas y complejas, dificultando la anotación manual como referencia definitiva.

A medida que evolucionan los modelos, los usuarios y la división del trabajo, las gráficas aquí presentadas también cambiarán. Esperamos que estos indicadores nos ayuden a seguir los cambios importantes: si en el futuro el nivel profesional deja de dar ventajas, será señal de que los modelos ofrecen juicios clave en lugar de los humanos, y que los beneficios se extienden a más personas. Si la proporción de usuarios fuera de profesiones de software que logran completar sesiones con éxito sigue creciendo, podría significar que la producción de software se vuelve parte del trabajo cotidiano en todos los campos, no solo en una profesión. Estos cambios afectarán quiénes se benefician de la programación con agentes y en qué medida, influyendo en las habilidades más valoradas en el mercado laboral.

[Enlace al original]

Haz clic para conocer las vacantes en BlockBeats

Únete a la comunidad oficial de BlockBeats:

Grupo de Telegram: https://t.me/theblockbeats

Chat de Telegram: https://t.me/BlockBeats_App

Cuenta oficial de Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado