Claude Codeで起きていることは、知識労働の未来を示唆しているかもしれない:エージェントは次第に非コーディング作業に埋め込まれていく。私たちは、Claudeがより複雑で価値の高いタスクを処理していることを発見した。同時に、エージェントプログラミングには明確な労働分担が存在している:人間は何を構築するかを決め、エージェントはどう構築するかを決める。
Claude Codeの使い方を理解するために、各会話を最もよく表す単一の活動に分類した。そのうち4つはコードの作成や保守に直接関わる:新規構築、破損修復、テスト、他のエージェントや自動化パイプラインの調整。もう一つはソフトウェア操作:展開、設定、パイプラインの実行、システム監視。さらに、「何をすべきか」を理解することに近い2つのカテゴリ:既存システムの動作理解と、変更前の計画立案。最後の2つはコードに関係なく、またはコードは補助的な役割を果たす:データ分析と、プレゼンテーションや文章によるコミュニケーション。
Claude Codeの自主性はどの程度強いのか?能力評価は、その上限がすでに非常に高く、なお上昇し続けていることを示している。例えば、METRの時間範囲評価などのベンチマークでは、最先端モデルはもはや人間が数時間かけて行うソフトウェア作業を自律的に完了し、途中で障害を克服できる。では、実際の使用ではどうか?ここでは、実際の会話において、人間とClaudeがどれだけ誘導を担っているかに焦点を当てる。
誰が最もClaude Codeを使いこなすのか?答えはおそらくプログラマーではない
> 原文タイトル:Agentic coding and persistent returns to expertise
> 原文作者:Anthropoic
> 编译:Peggy
>
編者注:このレポートは約40万回のClaude Code会話に基づき、AIプログラミングツールが人とコードの関係をどのように変えているかを議論している。
記事の最も核心的な発見は:エージェントプログラミングにおいて、人間は主に「何をするか」を決定し、Claudeは主に「どうやって行うか」を担当していること。ユーザーは大部分の計画決定を担い、Claudeは大部分の実行作業を行う。つまり、AIはコードを書く、ファイルを修正する、コマンドを実行する、デバッグするなどの実現段階を引き受けているが、目標設定や結果判断は依然として人に依存している。
さらに重要なのは、Claude Codeの使用効果は、ユーザーがプログラマーかどうかだけに依存しないこと。レポートによると、コード生成のタスクにおいて、法律、金融、管理、研究などの非技術職のユーザーの成功率はすでにソフトウェアエンジニアに近づいている。結果に最も影響を与えるのは、ユーザーが解決すべき問題を理解しているかどうかである。
これは、AIプログラミングが実現のハードルを下げる一方で、判断のハードルを下げているわけではないことを意味する。将来的には、ビジネスやシナリオを理解し、要求や結果を明確に提示できる人が、単にコードを書けるだけの人よりもAIを効果的に使える可能性がある。AIは分野知識を自動的に置き換えるのではなく、むしろ分野知識の価値を拡大する。
以下は原文です。
重要な発見
既存の研究を踏まえ、我々はインタラクティブなエージェントプログラミングを研究するためのフレームワークを提案する。このフレームワークは、2025年10月から2026年4月までの約40万回のClaude Code会話のプライバシー保護分析に基づき、タスクの構成、人間とAIの協働方式、成功率を評価している。
典型的な会話の中で、人間はほとんどの計画決定を担当し、「何をするか」を決める。一方、Claudeはほとんどの実行決定を担当し、「どうやってやるか」を決める。特定分野の専門知識が高いほど、指示ごとにClaudeが行う作業量は増える。コーディングタスクにおいて、主要な職業群の平均成功率――すなわち、ユーザーが最初に意図したことを完了し、テストやコード提出などの検証証拠を得ている割合――は、ほぼソフトウェアエンジニアと同水準である。
ユーザーの分野専門能力が高いほど、会話は成功に近づく可能性が高い。ただし、中級者とエキスパートの差はそれほど大きくない。我々が観察した7か月間で、デバッグに使われる会話の割合はほぼ半減し、使い方もエンドツーエンドのインテリジェントエージェントの利用にシフトしている:コードの展開と実行、データ分析、非コード文書の作成などだ。
この7か月間で、典型的なタスクの価値はほぼすべての職種で上昇した。自由職業の求人情報と比較して、タスクの価値の平均上昇率は約25%と推定される。
序論
エージェントプログラミングは急速に台頭している。2025年末以降、GitHubのプロジェクトにおいてコーディングエージェントの活動比率は倍増し、Claude Codeのユーザーは平均して週20時間このツールを使っている。未経験者が複雑な技術作業をエージェントに指示できるのか?これらのツールの迅速な採用と能力向上は、より広範な知識労働にどのような影響を与えるのか?我々は完全な答えを持たないが、Claude Codeの使用データからいくつかの早期兆候を見て取れる。
本レポートは、2025年10月から2026年4月までの約23.5万人のユーザーと約40万回のインタラクティブ会話のプライバシー保護分析に基づき、Claude Codeの実際の使用状況の証拠を提供する。これまでのClaude Code会話における自主性指標や、Claude CodeがAnthropic内部の働き方をどう変えているかに関する研究を継続している。本稿では、インタラクティブAIプログラミングアシスタントの利用状況を記述するフレームワークを提案する:人々は何をしているのか、誰がそれを行っているのか、そして仕事は成功しているのか。特に、コマンドラインインターフェース(CLI)、Claude.ai、またはClaude Codeデスクトップアプリを通じてClaude Codeを使う状況に注目する。モデル能力の向上に伴い、エージェントプログラミングの使い方がどう変化しているかを追跡することで、これらのツールがプログラミング専門家や知識労働者の労働市場に与える影響を理解できる。
Claude Codeで起きていることは、知識労働の未来を示唆しているかもしれない:エージェントは次第に非コーディング作業に埋め込まれていく。私たちは、Claudeがより複雑で価値の高いタスクを処理していることを発見した。同時に、エージェントプログラミングには明確な労働分担が存在している:人間は何を構築するかを決め、エージェントはどう構築するかを決める。
また、ツールの効果を拡大するのは、プログラミング熟練度ではなく、分野の専門知識である証拠も見つかった。特に、分野の専門家は成功しやすく、誤りや誤解からの回復も早い。ただし、エキスパートと中級者の差はそれほど大きくない。これは、ある分野に十分な熟練度があれば、深い専門家とほぼ同じようにこれらのツールを効果的に使えることを示している。
これらの発見により、労働市場の潜在的な変化を初期的に観察できる。私たちのデータでは、成功は本人が解決すべき問題を理解しているかどうかに依存しており、プログラミング訓練の有無にはあまり関係しない。もしこれらのパターンが経済全体に当てはまるなら、エージェントプログラミングツールは、一部の実現志向の仕事を吸収しつつも、実際に問題を理解している人を評価する仕組みになっていることを意味する。コードエージェントは分野知識を置き換えるのではなく、むしろその価値を増幅させる。
労働分業
人々がClaude Codeで何をしているのか
Claude Codeの使い方を理解するために、各会話を最もよく表す単一の活動に分類した。そのうち4つはコードの作成や保守に直接関わる:新規構築、破損修復、テスト、他のエージェントや自動化パイプラインの調整。もう一つはソフトウェア操作:展開、設定、パイプラインの実行、システム監視。さらに、「何をすべきか」を理解することに近い2つのカテゴリ:既存システムの動作理解と、変更前の計画立案。最後の2つはコードに関係なく、またはコードは補助的な役割を果たす:データ分析と、プレゼンテーションや文章によるコミュニケーション。
約56%の会話は、コードを書いた(25%)、コードを修正した(26%)、またはテスト・調整した(5%)もので構成される。ソフト操作は17%、計画・探索は14%、分析や文章作成は13%(図1参照)。
> 図1:9つの作業モード。各インタラクティブ会話は、その目的を最もよく表す単一の作業モードに分類される。
まずモデルに会話記録を読ませ、その内容に基づいて分類を行う。その後、我々のプライバシー保護分析ツールを用いて、分類結果と各会話のリモートテレメトリーデータ(コードの追加・削除の有無など)をクロス検証する。両者は高い一致を示す。例えば、コードの作成や修正と分類された会話のうち、90%以上がリモートデータでもコードの変更を示している。詳細は付録参照。
誰が決定を下すのか
Claude Codeの自主性はどの程度強いのか?能力評価は、その上限がすでに非常に高く、なお上昇し続けていることを示している。例えば、METRの時間範囲評価などのベンチマークでは、最先端モデルはもはや人間が数時間かけて行うソフトウェア作業を自律的に完了し、途中で障害を克服できる。では、実際の使用ではどうか?ここでは、実際の会話において、人間とClaudeがどれだけ誘導を担っているかに焦点を当てる。
この問題を二つの観点から調査した。第一に、どの程度人々が決定をClaudeに委ねているか。第二に、どれだけの行動をClaudeに割り当てているか。会話の決定分担を理解するために、我々は会話内容に基づきプライバシー保護の決定帰属分類器を構築した。分類器には、会話中のすべての意味のある決定を列挙させ、それらを計画決定と実行決定に分ける。計画決定には、「何をするか」「どの方法を採用するか」「何をもって完了とみなすか」が含まれ、実行決定には、「どのファイルを修正するか」「何のコードを書くか」「どの言語で書くか」「どのコマンドを実行するか」が含まれる。次に、分類器は各決定をClaudeまたはユーザーに帰属させ、各会話について、ユーザーが担った計画決定と実行決定の割合を示す二つの数字を生成する。
平均して、人間は約70%の計画決定を行うが、実行決定は20%にとどまる(図2参照)。実際の使用では、エージェントプログラミングは明確な労働分担を形成している:人間は何を構築するかを決め、エージェントはどうやって構築するかを決める。
会話中の行動の委任度を理解するために、内容を見るのではなく、会話の構造を観察した。Claude Codeの会話は、Claudeとユーザーのやりとりからなる:ユーザーがプロンプトを送り、Claudeが動作を行い、その後ユーザーが次のプロンプトを送る、という繰り返しだ。典型的な会話では、これが約4ラウンド行われる。2025年10月から2026年4月までのデータでは、ユーザーが1つのプロンプトを送ると、平均してClaudeは約10の動作を行い、時には100を超えることもある。各ラウンドで、Claudeはファイルを読み込み、コードを編集し、コマンドを実行し、平均して2,400語を出力する。
Claudeがユーザーの確認の間にどれだけ仕事を進めるかは、誰が決定を下すかに大きく依存する。ユーザーが実行過程をコントロールしている場合、つまり80%以上の実行決定をユーザーが行うと、Claudeの1ラウンドあたりの動作数は少なく、約8個となる。一方、Claudeが計画のコントロールを握る場合、つまり80%以上の計画決定をClaudeが行うと、その動作数は最大の約16個に達する。
> 図2:計画決定と実行決定におけるClaudeの占める割合。会話中の計画決定(何をするか)と実行決定(どうやってやるか)がClaudeに帰属する割合を示す。典型的な会話では、ユーザーは約70%の計画決定を行い、Claudeは約80%の実行決定を担当している。
専門レベル
各会話記録に基づき、Claudeはユーザーの表面的な専門レベルを5段階(初心者からエキスパートまで)で評価する。専門レベル分類器は、指示の正確さ、Claudeに何を検証させるかの要求、ユーザーがClaudeを訂正する頻度といった3つの信号に注目する。ここでの専門レベルは、職位や一般的な能力とは全く異なる概念であり、重要なのは、特定のタスクに対してのものであることだ。例えば、経験豊富なエンジニアがRustの問題を最初に尋ねても、そのタスクでは初心者とみなされることもある。逆に、Pythonを一度も使ったことのない会計士が、Claudeに特定のPythonスクリプトの会計ルールを正確に伝え、月末の締め処理の誤りを捕捉できれば、そのタスクのエキスパートとみなされる。
表1は、分類器が定義した各レベルの専門性の基準と、公開コーディングエージェント会話データセットSWE-chatの例示リクエストを示す。初心者と分類された会話は一般的な指示であり、特定の分野知識を示さない。一方、エキスパートと分類された会話は、コードベースや技術環境に深い理解を示している。
> 表1:専門レベル分類器。実際の会話を改変・匿名化・圧縮した例を示し、分類器がラベル付けしたもの。多くの例は公開のエージェントプログラミング会話データセットSWE-chatからのもの。
我々は、専門レベルとClaudeの各指示に対する出力や活動量の関係を定量化した。典型的な初心者会話では、各指示がClaudeに約5つの動作を引き起こし、約600語を出力する。一方、エキスパート会話では、動作の連鎖長は2倍以上の約12個となり、出力も約3,200語と、初心者の5倍に達する(図3参照)。この初心者とエキスパートの差は、すべての作業タイプとタスク価値区分において見られる。
これらの指標は、以前のClaude Codeの自主性に関する研究を補完するものだ。以前の研究は、エージェントの稼働時間や、ユーザーがどれだけ頻繁に自動的に行動を承認したかを追跡していた。一方、我々の決定帰属指標は、会話全体で誰が実質的な決定を下しているかを捉え、各指示が引き起こす出力や動作数は、人間の指示がClaudeにどれだけ自主的な活動を促すかを示す。
> 図3:より専門的なユーザーに対して、Claudeは各指示ごとにより多くの作業を完了させる。専門レベルが高いほど、Claudeが1つの指示で行う動作数(左側の棒グラフ)と出力量(右側の棒グラフ)が増加。箱は四分位範囲を示し、中位数で区切る。ひげは第5パーセンタイルから第95パーセンタイルまでを表す。白点は幾何平均値。両者の上昇傾向は統計的に有意(p < 0.001)であり、隣接する専門レベル間の差も有意。制御変数(作業モード、タスク価値、月、職業、モデル系列)やクラスタリング標準誤差を考慮しても、この傾向は有意:専門レベルが1段階上がるごとに、動作数は9%増加し、出力量は13%増加。
誰がClaude Codeを使っているのか、何をしているのか
ユーザー
誰がこれらの仕事をしているのか理解するために、会話記録から各ユーザーの職業を推定し、米国労働統計局の主要職業分類(SOC)体系の23カテゴリーの一つにマッピングした。分類器は、次の信号のみに基づいて判断を下す:会話開始時にエージェントが読み込むコンテキスト、ファイル名と構造、ユーザーが引用する資料や成果物(法律文書、臨床データ、財務報告、教材など)、および使用される語彙。分類器には、「コードを書いている」こと自体を、ユーザーのプログラミング職業の証拠とみなさないよう明示的に指示している。ソフトウェアやデータ作業の明確な証拠がある場合のみ、その会話は「計算機・数学職」に分類される。例えば、弁護士が契約書の一部欠落を自動検査するスクリプトを作成した場合、その会話は主にソフトウェア作業であっても、法律職に分類される。職業に関する証拠が全くなければ、その会話は分類されない。
約70%の会話で職業を推定できる。分類可能な会話の中で、「計算機・数学職」が最も多く、これはソフトウェア関連の仕事を多く含むため自然な結果だ。次いで、ビジネス・金融運営、アート・デザイン・メディア、管理、生命科学・物理科学・社会科学の順。サンプル中で最も増加している非ソフトウェア職種は、管理、販売、法律職。
仕事
2025年10月から2026年4月までの間に、Claude Codeを使った仕事の構成に顕著な変化が見られる。最も明らかなのは、破損したコードの修復に関する会話の割合が33%から19%に減少したこと(図4参照)。代わりに、コードに関わる作業が増加している。ソフトウェア操作の割合は14%から21%に上昇。文章作成とデータ分析は約2倍に増え、10%から20%に達した。
タスクの価値も上昇している。類似の仕事のコストを推定し、会話の経済的価値を概算した結果、2025年10月から2026年4月までの平均会話価値は27%上昇した。この増加は、多様な仕事タイプに見られる。構築、操作、修復の各タスクの価値は、それぞれ約43%、34%、32%増加した。これらの価格推定は粗いため、主に時間経過による相対的な比較に用いており、直接的なドル価値として読むべきではない。詳細は付録参照。
> 図4:2025年10月から2026年4月までのClaude Codeの仕事構成と価値の変化。七か月間の期間内における各作業モードの会話中占める割合を示す。破損コード修復の割合は33%から19%に減少し、ソフト操作、データ分析、文書作成の割合は増加している。
成功はユーザーがもたらすものに依存
タスクの価値を推定することは、Claude Codeが人々の仕事をどのように支援しているかを理解する一つの方法だ。もう一つは、会話の成功率と、その特徴との関係を見ることだ。すべての成功指標において、明確なパターンが見られる:会話中のユーザーの専門レベルが高いほど、成功の可能性も高まる。特に、低レベルから中級への向上が最も大きな利益をもたらし、中級からエキスパートへの差はそれほど大きくない。
成功会話の特徴を分析する前に、成功をどう測るかを正確に定義する必要がある。ユーザーの実世界の結果を観測できないため、Claudeを通じてやりたいことを達成したかどうかを直接尋ねることもできない。そこで、会話記録に基づく二つの補完的な評価方法を採用する。第一は「成功判定」で、分類器が会話全体を読んで、ユーザーが最初に設定した目標を達成したかどうかを判断する。選択肢は成功、部分成功、失敗、明確な目標なし。次に、二つの補助分類器が、その判断の証拠の強さを評価し、「検証済み成功」を決定する。成功の証拠は、該当作業に関連するgitのコミットやプルリクエスト、テストの合格、ユーザーの明示的な承認など、検証可能な成功証拠を探す。これらは、「信号なし」から「弱い信号」(1点)、「複数の硬い信号」(5点)までのレベルで会話にスコアを付ける。もう一つの並行する失敗信号分類器は、エラーやテスト失敗、同じことを何度も試す、出力に反対意見を述べるなどの失敗証拠を評価する。検証済み成功は、両方の条件を満たす場合に成立:会話が成功と判定され、かつ少なくとも一つの硬い成功証拠が存在する。これらの分析は、会話の成功・失敗の程度に焦点を当てており、「明確な目標なし」と判定された会話は除外している(全サンプルの約7.7%)。
専門レベルのリターン
では、どの会話が最も成功しやすいのか?結果は、前述の専門レベルスコアが会話の成功に大きく影響していることを示している。
一部の人は、専門レベルは実際の成功要因ではないのではと懸念するかもしれない。もしかすると、エキスパートは異なるタスクを選び、他の違いがあるのかもしれない。本節では、同じ作業タイプ、同じ推定価値、同じ月、同じテーマ、同じ職業群の会話を比較し、こうした懸念に部分的に応えるとともに、ユーザーの専門レベルの違いが結果にどう影響するかを検証する。
> 表2:分類器による成功と失敗の定義例。実際の会話例を改変・匿名化・圧縮し、分類器がラベル付けしたもの。多くは公開のSWE-chatデータセットからの例。
すべての成功指標において、会話中のユーザーの専門レベルが高いほど、成功の可能性も高まる。初心者と評価された会話は、最も厳しい成功指標「検証済み成功」で15%の成功率、少なくとも部分成功では77%に達する。一方、中級以上と評価された会話は、検証済み成功率が28%から33%、部分成功率は91%から92%(図5参照)。
各指標で、最大の利益は初心者から中級への向上に由来し、中級からエキスパートへの差は緩やかになる。背後の回帰分析の詳細は付録参照。
> 図5:専門レベルと会話結果の関係。ユーザーのタスクにおける専門レベル(初心者からエキスパートまでの5段階)に応じて、会話の結果を示す。左図は全会話、中央と右は問題に直面した会話(失敗信号が3を超えるもの)に限定し、これらの会話が最終的に達した成功・失敗の割合を示す。各点は調整済み比率を表し、同じ作業モード、タスク価値、月、テーマ、ユーザータイプ(ソフトウェア関連職か否か)で比較した差異を推定。回帰の詳細は付録参照。誤差線は95%信頼区間を示す。これらの図は、「明確な目標なし」と判定された会話を除外している。
課題に直面した会話でも、同様の傾向が見られる。失敗信号に検証済みの失敗証拠が記録された場合、その会話は「問題に直面」とみなす。これにはエラー、テスト失敗、何度も同じことを試す、出力に対する不満や反論などが含まれる。検証済み成功の割合は、初心者会話の4%からエキスパート会話の15%に上昇(図5参照)。より緩やかな成功指標を用いると、少なくとも部分成功の割合は、初心者で60%、中級・エキスパートで80〜81%となる。
また、専門レベルと各種失敗指標の逆相関も追跡した。注意点として、この分析では、失敗と判定された会話は、部分成功すら達成していないものを指す。問題に直面した会話が失敗と判定され、かつコードを書いていなければ、「放棄」とみなす。ユーザーが初心者とみなす会話では、最終的に放棄されたのは19%、他の職業群では5〜7%だった。つまり、経験の少ないユーザーは、困難に直面したときに放棄しやすいことが示唆される。専門性の価値の一部は、エージェントを正しい方向に導く能力にある。
職業よりも専門レベルの方が重要ではないか
ソフトウェア関連職の会話における検証済み成功率は約30%、その他の職業は約26%。コードを生成した会話(少なくとも一行の追加・修正)では、それぞれ34%と29%(図6)。より緩やかな成功定義を用いると、ソフトウェア職と他職種の差はさらに縮小する。コード生成会話において、少なくとも部分成功した割合は、ソフトウェア・数学職が89%、その他が88%(5ポイント差)で、成功率の差は7ポイント以内に収まる。これらの差は、7か月間にわたり拡大も縮小もしていない。データセットの最大規模の10職種群では、すべてエンジニアと成功率の差は7ポイント以内だ。管理職は検証済み成功率が最も高く、ソフトウェア職をわずかに上回る。管理職の高い成功率は、管理スキルがエージェント指揮に応用できることを反映している可能性もあるが、測定方法の影響も一部ある。検証は会話中の明示的な確認に依存しており、管理職は結果に満足したときに表現する習慣があるためとも考えられる。
> 図6:推定職業別のコード会話の成功率と検証済み成功率。成功と判定された会話のうち、少なくとも一行の追加・修正を伴うものを、職業推定に基づき成功定義で分類したもの。最大の10職種群を示す。各職種は、SOCの計算機・数学職と成功率差が7ポイント以内に収まる。誤差線は95%信頼区間を示す。
展望
本レポートの結果は、形成されつつある全体像を描いている:エージェントプログラミングは、特定の知識やスキルを拡大し、他のスキルを置き換えつつある。コード生成の会話では、主要な職業の成功率はソフトウェア関連職とほぼ差がなくなってきている。これは、エージェントがプログラミング背景の有無に関わらず、成功に必要な要素を拡大していることを示唆している。
同時に、成功する会話はより多くの分野知識を示す傾向がある。エキスパートと評価された会話は、初心者の2倍以上の検証済み成功率を持つ。問題に直面したとき、初心者は他のユーザーよりも放棄率が数倍高い。協働の仕方もこの図を明確にしている:分野のエキスパートは、指示ごとにClaudeにより多くの作業をさせることができる。したがって、Claudeを成功に導く能力は、コードを書く能力よりも、特定分野の理解に依存している。ある分野の理解を持つ者は、過去にはできなかった技術作業もこなせるようになる。逆に、こうした理解が乏しい人は、同じツールを使っても得られる成果は少ない。さらに、利益は「熟練」よりも「習熟」に近い。分野の操作的理解さえあれば、多くの利益を得られる。深い専門性は、その上に少量の追加利益をもたらすにすぎない。
これらの発見はまだ初期段階だ。多くの研究と同様に、実世界の結果(例:会話で書かれたコードが実際に使われたか、経済的価値を生んだか)を測定できていない。さらに、本レポートでは、インタラクション以外の使用(非対話型)が全体の活動のかなりの部分を占めていることも除外している。こうした使用を測る枠組みの構築は、今後の重要な課題だ。加えて、すべての会話分類は、モデルによる会話記録の読解に依存している。付録では、分類器と独立したリモートテレメトリーデータが、期待通りに一致し、多くの会話で強い参照モデルと一致していることを示す。ただし、大規模なシナリオでは、分類の検証は依然として難しい。Claude Codeの会話は長く複雑になりやすく、人工的なラベル付けの基準と比較するのも困難だ。
モデルとユーザー、そして両者の労働分担の変化に伴い、本レポートの図も更新され続けるだろう。これらの指標は、今後の大きな変化を追跡する助けとなる。例えば、将来的に専門レベルのリターンが低下し始めたら、それはモデルがユーザーの判断を代替し始めた証拠だ。こうしたツールの利益は、分野の専門家からより広範な人々へと拡大していく可能性がある。ソフトウェア職以外のユーザーの成功率が引き続き上昇すれば、ソフトウェア開発は特定の職業だけのものではなく、あらゆる分野の一般的な作業の一部となるだろう。これらの変化は、誰がエージェントプログラミングから恩恵を受けるか、その範囲と程度に影響し、�