Firefoxのコードベースから22個の脆弱性を発見した。
かかった期間はわずか2週間だ。
そのうち14個は致命的なハイレベルバグだ。
これは人間のセキュリティ研究者の成果ではない。
Anthropicが放ったClaude Codeの最新機能が叩き出したスコアだ。
自律性を持った複数エージェントが並行稼働した結果だ。
だが、代償は重い。
1回のコードレビューで15〜25ドルのトークンが消し飛ぶ。
息をするようにAPI制限に引っかかる。
万能な単一モデルにすべてを丸投げする運用は破綻した。
これからは、高コストなクラウドAIと無料のローカルOSSを使い分けるハイブリッド運用だ。
SNS運用を自動化しませんか?
ThreadPostなら、投稿作成・画像生成・スケジュール管理まで全てAIにお任せ。
エージェントの並行稼働がもたらす光と影
自律型コーディングへの完全シフト
AnthropicがClaude Codeのコードレビュー機能を強化した。
単なる自動補完ツールの延長ではない。
複数のAIエージェントが並行してリポジトリ全体を読み解く。
これは自律型コーディングへの完全なシフトだ。
従来の静的解析ツールとは次元が違う。
エージェントがファイル編集やコマンド実行を自律的に連鎖させる。
その平均回数は21.2回に達する。
半年で116%の自律性向上だ。
「CLAUDE.md」ファイルを読み込み、プロジェクト固有の規約を理解する。
さらにModel Context Protocolを推進し、セキュアなデータベースアクセスまで自律化している。
Anthropic社内では、開発者1人あたりのコード出力が200%跳ね上がった。
1000行以上の巨大な変更でも、84%の確率で問題を検知する。
誤検知率は1%未満だ。
人間より正確にコードの欠陥を見つけ出す。
だが、この魔法には金がかかる。
コストは、1回のレビューで平均15〜25ドルだ。
1日10回プルリクを作れば、それだけで250ドルが飛ぶ。
個人開発者には到底払えない金額だ。
エンタープライズ向けの価格設定だ。
まじかよ。1回のレビューで25ドルって、吉野家の牛丼が何杯食えるんだ。ThreadPostのフロントエンド改修で1日何回もコミットする環境を想像すると、即刻破産する。精度が高いのは最高だけど、この価格設定は個人開発者の財布を完全に無視しているのが気になる。

コンテキストの腐敗とレート制限の壁
なぜここまでコストが跳ね上がるのか。
原因は、Claude Codeに実装された「Agent Teams」という仕組みだ。
この裏側を的確に解き明かしている。
AIにはコンテキストウィンドウという作業メモリがある。
1つのセッションに設計、実装、レビューをすべて詰め込むと、メモリがパンクする。
指示を忘れ、判断がブレる。
これがコンテキストの腐敗だ。
これを防ぐため、Agent Teamsは役割を完全に分離する。
セキュリティ担当、パフォーマンス担当、テスト担当。
それぞれが独立したコンテキストウィンドウを持つ。
互いに干渉せず、並行してコードを検証する。
結果として、精度は跳ね上がる。
だが、トークン消費はエージェントの数だけ倍増する。
3人のエージェントを走らせれば、コストはきっちり3倍だ。
ローカルOSS「Goose」の台頭
さらに深刻なのがレート制限だ。
開発者の悲鳴を代弁している。
月額20ドルのProプランでも、5時間で10〜40プロンプトしか叩けない。
マルチエージェントで複雑なコードを処理すれば、数分で上限に達する。
「使いたいのに使えない」状態だ。
ここで台頭してきたのが、Block社が開発した完全無料のローカルOSS「Goose」だ。
GitHubで26,100スターを獲得している。
Claude Codeとほぼ同じターミナルベースのAIエージェント機能を持つ。
ローカルで動くため、サブスク費用はゼロだ。
レート制限も存在しない。
オフラインの飛行機の中でも動く。
開発者は完全にコントロールを取り戻せる。
Gooseの勢いが止まらないのも納得だ。Claude Codeの制限が厳しすぎて、作業が強制終了させられるストレスは異常だ。ちょっと複雑なリファクタリングを頼むとすぐに「制限に達しました」と弾かれる未来が見える。ローカルで動かせるGooseは、試してみたい選択肢だ。

ここまで読んだあなたに
今なら無料で全機能をお試しいただけます。設定後は完全放置でプロ品質の投稿を毎日生成。
2ステッププロンプトと自律ループの構築
この現状から、僕ら開発者はハイブリッドなAIエージェント運用へ移行する。
すべてをClaude Codeに任せることは不可能だ。
日常的なコーディングや単純なバグ修正は、Gooseのような無料のローカルOSSにオフロードする。
クリティカルなセキュリティレビューのときだけ、Claude CodeのAgent Teamsをスポットで起動する。
コストを抑えるためのプロンプト設計も欠かせない。
「2ステップ式」が有効だ。
いきなり複数のエージェントを走らせると破綻する。
まずは単一のリードエージェントで要件を整理し、タスクを分割する。
方針が確定してから、初めてチームを起動して並行処理させる。
これで無駄なトークン消費を削ぎ落とせる。
Auto Modeによる安全な自動化
さらに、自律動作の安全性も進化する。
2026年3月12日、Claude Codeに「Auto Mode」が実装される予定だ。
これまでは、エージェントがコマンドを実行するたびに確認プロンプトが出ていた。
承認疲れで開発者の集中力が削がれる。
確認をスキップする「危険な権限スキップ」フラグは文字通り危険すぎた。
新しいAuto Modeは、プロンプトインジェクションなどの脅威をブロックしながら、安全に自律ループを回す。
人間は最後のゲートキーパーとしてコードの品質だけを見ればよくなる。
「shift+tab」キーでトリガーされる自律ループが、開発のボトルネックを破壊する。
Auto Modeの実装は地味にデカい。コマンド実行のたびにエンターキーを叩かされるのは、AIを使っているのかAIに使われているのか分からなくなる。ThreadPostのバッチ処理の自動テストループとか、これを使えば完全に放置できると思った。安全性が担保されるなら、ガンガン回していきたい。

よくある質問と回答
Q1: Claude CodeのAgent Teamsを使うと料金はどうなりますか?
A1: エージェントの数に比例してトークン消費が増加します。複数のエージェントが独立してセッションを持つ仕組みになっています。1回のレビューで平均15〜25ドルのコストがかかります。これを回避するため、まずは単一エージェントで方針を固め、必要な並行タスクのみチームを起動する2ステップ式の運用が推奨されます。
Q2: Claude Codeのレート制限が厳しいと聞きましたが、実態はどうですか?
A2: 非常に厳しいのが現状です。Proプランでも5時間で10〜40プロンプトの制限があり、マルチエージェントで複雑なコードベースを処理するとすぐに上限に達します。この制限を回避するため、Block社が開発した完全無料・ローカル動作のOSS「Goose」に日常的なタスクを移行する開発者が急増しています。
Q3: Auto Modeとは何ですか?いつから使えますか?
A3: エージェントがコマンドを実行するたびに求められる確認プロンプトを安全に自動化する機能です。従来の危険なスキップフラグとは異なり、プロンプトインジェクションなどの脅威をブロックしつつ自律動作を可能にします。2026年3月12日に有効化フラグ付きでリリースされる予定です。
開発の主導権を握り続けるために
AIエージェントの進化は、生産性と引き換えに、緻密なコスト管理とツール選定を僕らに要求してくる。

この記事が参考になったら、ThreadPostを試してみませんか?
投稿作成・画像生成・スケジュール管理まで、全てAIにお任せできます。
ThreadPostをもっと知る
ThreadPost 代表 / SNS自動化の研究者
ThreadPost運営。Claude Codeで1人SaaS開発しながら、海外AI最新情報を開発者目線で発信中。
@shintaro_campon