脆弱性診断で150万円超の報酬を得たClaude Code。長時間のタスクを安定させるコンテキスト管理の仕組み。

SNS運用を自動化しませんか？

ThreadPostなら、投稿作成・画像生成・スケジュール管理まで全てAIにお任せ。

無料で始める

冒頭フック

ハッカーがAIに負けた。

脆弱性診断コンテストでClaude Codeが実機をハッキングし、150万円を超える報酬を叩き出した。

AIがブラウザのセキュリティ脆弱性を22件も発見している。

個人のコーディング補助ツールだったClaude Codeが、完全に自律型のハッカーとして機能している。

長時間のタスクを破綻させないコンテキスト管理が成果を分けた。

AIエージェントの運用は、単一のチャット画面からワークフロー駆動へと完全にフェーズが移行した。

ニュースの概要

日本の防衛系ハッカーが集まるコンテストで結果が出た。

10年以上の経験を持つプロの脆弱性診断員たちが、AIの圧倒的な処理速度の前に敗北した。

IoT機器の物理的な接続やファームウェアの吸い出しこそ人間が行った。

しかし、そこから先の解析はすべてClaude Codeが自律的に実行した。

ファームウェアを読み解き、脆弱性を見つけ、攻撃コードを生成する。

実機に対して攻撃を実行し、成否を判定する。

この一連のハッキング作業により、Claude Codeは150万円以上の報酬を獲得した。

OSSソフトウェアにおいても、AIが発見した脆弱性に大量のCVE番号が割り当てられている。

メモリバグだけでなく、ロジックバグも検出できるレベルに達している。

朝の8時まで絶対に診断を続けてとAIに指示を出し、人間は寝る。

起きると、AIが脆弱性を見つけて完璧なレポートを書き上げている状態だ。

なお、僕が寝ている間にAIに書かせたコードは、大半が無限ループに陥ってサーバー代を溶かしていた。

AIが長時間自律的に動くようになるとコンテキスト汚染の問題が発生する。

タスクが長引くにつれて、コンテキストウィンドウに不要な会話履歴やログが蓄積していく。

結果として、初期に与えた指示やプロジェクトの根幹となるルールをAIが忘れてしまう。

実装しながらレビューも兼ねるような曖昧な指示を出すと、AIの挙動は途端に不安定になる。

この問題を解決するため、海外の開発者たちはClaude Codeの運用方法を根本から変え始めている。

現在、Claude Codeの周辺には強力なエコシステムが構築されつつある。

タスクを「計画」「実装」「レビュー」「修正」の4つのフェーズに強制的に分割するTAKTというツールが登場した。

製品計画からQAテストまでを8つのモードに分け、永続的なブラウザ環境を提供するgstackも公開された。

さらに、ビジュアルエディタを使ってカスタムコマンドをノードベースで設計できるCCWFという拡張機能も注目を集めている。

単一のチャット画面で全てを完結させるアプローチは、すでに過去のものになった。

組織への導入の動きも加速している。

利用状況を把握するため、アクティブセッションやコスト、トークン使用量をダッシュボードで可視化するログ基盤の構築が進んでいる。

特定の設定ファイルを利用して、本番環境へのプッシュや環境変数の読み取りを禁止するセキュリティ設定の強制配布も可能になった。

※この記事は、Claude Codeで1人SaaS開発しているしんたろーが、海外AI最新情報を開発者目線で解説する「AI活用Tips」です。

開発者目線の解説

Claude Codeを使い込んでいる開発者なら、誰もがコンテキスト汚染の壁にぶつかる。

最初は賢かったAIが、ラリーを20回超えたあたりから急にポンコツになる。

修正を依頼したはずが、関係ない正常なコードまで破壊し始める。

これはAIの性能の限界ではなく、人間の使い方の問題だ。

TAKTが示しているアプローチは非常に合理的だ。

プログラムによってエージェントの起動を管理し、フェーズが移行するたびに不要なコンテキストを捨てる。

計画立案、コード実装、コードレビュー。

それぞれのステップで新鮮なコンテキストと専用のプロンプトを再注入する。

履歴を捨てる勇気を持つことが、AIを安定させる手段だ。

しんたろー：
Claude Codeで毎日コード書いてる身からすると、これは地味にデカい。
チャット履歴が長くなると、AIが急にポンコツになって関係ないファイルまで書き換え始める。
フェーズごとに履歴をぶった切る設計、うちの開発フローにも絶対入れよう。

gstackのアプローチはさらに踏み込んでいる。

特に目を引くのが、ブラウザサブシステムのアーキテクチャだ。

通常のAIエージェントは、ブラウザを操作するたびに新しいインスタンスを立ち上げる。

これには毎回3秒から5秒のコールドスタート遅延が発生する。

ログイン状態もCookieもその都度リセットされる。

gstackは、バックグラウンドでヘッドレスChromiumデーモンを常駐させる。

これにより、アクションごとの遅延は100msから200msに減少する。

Cookieもローカルストレージも開いているタブも、すべて維持されたままAIがテストを継続できる。

サーバーは30分のアイドル時間で自動的にシャットダウンされ、リソースの無駄遣いも防ぐ。

しんたろー：
毎回ブラウザ立ち上げてログインからやり直すAI見てて、マジで非効率だと思ってた。
常駐デーモンでセッション維持できるなら、E2Eテストの概念が根本から変わる。
これなら認証が必要なSaaSのQAも完全に自動化できそうだ。

CCWFのようなツールの登場も、AI開発のフェーズが変わったことを示している。

Claude Codeのカスタムコマンドは、通常テキストファイルで記述する。

しかし、複数のサブエージェントを連携させる複雑なワークフローをテキストだけで管理するのは限界がある。

CCWFを使えば、ノードを繋ぐだけでフローチャート付きのカスタムコマンドが生成される。

AIに「アキネイターを作って」と指示する際も、単一のプロンプトで処理させるのではない。

質問の生成、回答の分岐、推測のタイミング判定。

これらを別々のサブエージェントに分割し、明示的にログを受け渡す設計にする。

「はい」「いいえ」だけでなく、「部分的にはい」「どちらともいえない」といった5つの選択肢を用意する。

推測のタイミングもルールベースで管理し、25問から35問の間に推測を行うようバランスを調整する。

複雑なタスクほど、細かく切り刻んでオーケストレーションする仕組みが求められている。

ここまで読んだあなたに

今なら無料で全機能をお試しいただけます。設定後は完全放置でプロ品質の投稿を毎日生成。

無料で始める

実務への影響

開発者が直面する課題は、プロンプトの微調整ではない。

AIエージェントの「オーケストレーション」能力だ。

タスクをどのように分割し、どのタイミングでコンテキストをリセットするか。

AIの役割と境界をどう設計するか。

これが今後のAI開発におけるコアスキルになる。

TAKTやgstackのようなツールは、この役割分離をシステム的に強制してくれる。

自分たちでゼロからワークフローを構築しなくても、これらのツールに乗っかるだけで安定した出力を得られる。

gstackが提供する8つのモード分割は、ソフトウェア開発の現場を完全に理解している。

製品レベルの計画を行うモード。

アーキテクチャやデータフローを検討するモード。

本番環境へのリスクとコードレビューに特化したモード。

これらを明確に分けることで、AIは今自分が何をすべきかを見失わない。

しんたろー：
結局、優秀なプロンプトを1つ書くより、凡庸なプロンプトを3つ繋ぐ方が安定するんだよな。
ThreadPostのバッチ処理の要件定義と実装は完全に分ける設計にしよう。
AIは魔法の箱ではなく、ただのモジュールとして扱う設計に書き直そう。

個人のツールから組織のインフラへの移行も急速に進んでいる。

利用状況の可視化やログ基盤の構築は、単なる監視ではない。

誰がどのようにClaude Codeを使いこなし、どんな成果を出しているか。

それをチーム全体で共有するためのナレッジベースとして機能する。

ダッシュボードを全員が閲覧できるようにすることで、誰がヘビーユーザーかが明確になる。

そこから自然発生的にナレッジ共有会が開かれるようになる。

業務で役立つスキルや内製のサーバーを簡単にインストールできる仕組みも有効だ。

コマンド1つで必要なツール群を導入できる環境を整える。

個人の暗黙知を組織の形式知へと変換する仕組みづくりが、AI導入の成否を分ける。

脆弱性診断で150万円を稼いだ事例が証明している。

Claude Codeはすでに、人間の専門家を超えるポテンシャルを持っている。

その能力を最大限に引き出すためには、長時間のタスクを安定させるための枠組みが必要だ。

コンテキストの肥大化を防ぎ、役割を明確に分離する。

ブラウザのセッションを維持し、シームレスなテスト環境を提供する。

これらのエコシステムを活用することで、僕らの開発プロセスは変化する。

AIにコードを書かせるフェーズから、AIにシステム全体を構築・検証させるフェーズへ移行している。

その波に乗り遅れないためには、最新のツールとワークフローの設計思想をキャッチアップし続けるしかない。

FAQ

Q1: Context Rot（コンテキスト汚染）とは何ですか？どう対策すればいいですか？

Context Rot（コンテキスト汚染）とは、AIエージェントとのやり取りが長引くにつれてコンテキストウィンドウに不要な情報が蓄積し、初期の指示や制約をAIが忘れてしまう現象だ。この問題への対策として、タスクを「計画」「実装」「レビュー」「修正」などのフェーズに分割する手法が有効だ。フェーズが切り替わるごとに不要な会話履歴を捨てて、新鮮なコンテキストとプロンプトを再注入する。TAKTやgstackなどのツールは、この役割分離をシステム的に強制することで品質を担保している。

Q2: Claude Codeのワークフローを分離するにはどのようなツールが使えますか？

Claude Codeのワークフローを分離・管理するためには、目的に応じて複数のツールが利用可能だ。プログラムによってエージェントの実行順序を厳密に制御したい場合はTAKTが便利だ。一方、ブラウザ操作やQAテストを含めた包括的な開発・リリースフローを構築したい場合はgstackが適している。また、ビジュアルエディタを使って直感的にカスタムコマンドを設計し、サブエージェントの連携を構築したい場合はCCWFがおすすめだ。これらを活用することで安定した開発が可能になる。

Q3: gstackの永続的ブラウザランタイムは通常のブラウザ操作と何が違いますか？

通常のエージェントワークフローにおけるブラウザ自動化は、アクションのたびに新しいブラウザインスタンスを起動する。そのため、コールドスタートに3秒から5秒の遅延が発生し、ログイン状態やセッション情報も失われがちだ。これに対し、gstackはヘッドレスChromiumデーモンをバックグラウンドで常駐させるアーキテクチャを採用している。これにより、実行遅延を100msから200msに短縮できる。Cookieやローカルストレージの状態を保持したまま、シームレスなQAテストをAIに実行させることが可能になる。