一晩でスコアが96.5%に到達した。
人間はコードを1行も書いていない。
メタエージェントが自律的にエージェントを最適化する。
開発者の仕事は「コードを書くこと」から完全に消滅する。
これは大げさな話ではない。
僕らの目の前で起きている。
AI開発のパラダイムは、根底から覆った。
一晩でスコアが96.5%に到達した。
人間はコードを1行も書いていない。
僕の昨日の徹夜作業は完全に無駄になった。
SNS運用を自動化しませんか?
ThreadPostなら、投稿作成・画像生成・スケジュール管理まで全てAIにお任せ。
泥臭いプロンプト調整の終焉
最近、エージェント開発の常識を破壊する新しい仕組みが登場した。
それは、AIに別のAIを開発・最適化させるというアプローチだ。
これまで、エージェント開発は泥臭い作業の連続だった。
誰もが以下のような単純作業を経験しているはずだ。
* システムプロンプトを書く
* ベンチマークを回す
* 失敗のログを読む
* プロンプトを微調整する
* ツールを追加する
* また実行する
これを数十回繰り返して、ようやく少しだけ精度が上がる。
これは単なる単純作業だ。
しかし、今は全く違う。
Kevin Guがthirdlayer.incで開発したAutoAgentというオープンソースライブラリが登場した。
メタエージェントにタスクを与えれば、24時間で自律的に改善ループを回す。
プロンプト、ツール定義、ルーティングロジックをAI自身が直接書き換える。
ベンチマークを実行し、スコアが上がれば変更を保持する。
下がれば破棄して、別の変更を試す。
この手法は、機械学習のモデル学習ループに非常に似ている。
モデルの重みを最適化する代わりに、エージェントの構成そのものを最適化する。
人間が直接ファイルを編集することは二度とない。
人間は方向性を指示するファイルだけを管理する。
驚異的なのは、この自律ループによって圧倒的なスコアを叩き出したことだ。
SpreadsheetBenchで96.5%を出し、1位を獲得した。
僕の書いたコードよりはるかに優秀で泣けてくる。
TerminalBenchでも55.1%を記録し、GPT-5の最高スコアを達成した。
AutoAgentは「エージェントエンジニアリングのための自動リサーチ」と表現されている。
GitHubリポジトリの構造も非常にシンプルだ。
agent.pyはテスト対象のハーネス全体を1つのファイルに収めている。
設定、ツール定義、エージェントレジストリ、ルーティング、オーケストレーションが含まれる。
アダプター部分は固定されており、残りの部分がメタエージェントの主な編集対象となる。
人間が編集するのはprogram.mdだけだ。
ここにはメタエージェントへの指示と、どのようなエージェントを構築するかのディレクティブが含まれる。
人間と機械の関心事の分離が明確に行われている。
人間はprogram.mdで方向性を設定する。
メタエージェントはそれを読み取り、agent.pyを検査し、ベンチマークを実行する。
失敗の原因を診断し、agent.pyの関連部分を書き換えて、再度実行する。
実験の履歴はresults.tsvというログファイルに自動的に記録される。
メタエージェントはこれを見て、次に何を試すべきかを学習し、調整する。
プロジェクトにはDockerfile.baseや、再利用可能なプロンプトを保存する.agent/ディレクトリもある。
ベンチマークのペイロードを格納するtasks/フォルダや、出力用のjobs/ディレクトリも用意されている。
評価指標はベンチマークのタスクテストスイートが算出する合計スコアだ。
メタエージェントはこのスコアを指標にして、山登り法で最適化を進める。
各タスクはHarborフォーマットで表現されている。
tasks/my-task/の下に配置され、タイムアウトなどを設定するtask.tomlが含まれる。
エージェントに送信されるプロンプトはinstruction.mdに記述される。
tests/ディレクトリには、スコアを/logs/reward.txtに書き込むtest.shがある。
検証には決定論的なチェックか、LLM-as-judgeを使用するtest.pyが使われる。
LLM-as-judgeのパターンは非常に興味深い。
単なる文字列一致のような決定論的なチェックだけではない。
別のLLMを使って、エージェントの出力が「十分に正しいか」を評価する。
これは、正解が単純な文字列一致に還元できないエージェントのベンチマークでよく使われる手法だ。
一方で、エンタープライズ向けの堅牢なフレームワークも進化を続けている。
Microsoft Agent FrameworkのようなC#ベースの堅牢な基盤では、型安全なステート管理やセッションの永続化が徹底されている。
AIAgentクラスは全エージェントの抽象基底クラスだ。
ChatClientAgentが主要な具象実装であり、IChatClientをラップしてエージェントとして振る舞わせる。
主要なプロパティにはId、Name、Descriptionがある。
IdはデフォルトでGUIDのNフォーマットが自動生成される。
IdCoreプロパティをオーバーライドすればカスタムIDを指定できる。
RunAsyncメソッドには4つのオーバーロードがある。
内部的にはすべて複数メッセージの処理に統一されている。
RunStreamingAsyncも同様に4つのオーバーロードが用意されている。
セッション周りではCreateSessionAsyncでセッションを作成する。
SerializeSessionAsyncやDeserializeSessionAsyncでセッション全体をJSONに永続化・復元できる。
GetService<T>を使えばサービスディスカバリが可能だ。
エージェントに登録したAIContextProviderなどのインスタンスを取得できる。
AgentSessionは会話ごとのステートコンテナだ。
その中にStateBagというキーバリューストアを持っている。
StateBagはAgentSessionStateBag型だ。
SetValue<T>で保存し、TryGetValue<T>やGetValue<T>で取得する。
TryRemoveValueで削除ができる。
内部はConcurrentDictionaryなのでスレッドセーフだ。
JSONシリアライズにも対応している。
セッションをシリアライズするとStateBagの中身も一緒に保存される。
ProviderSessionState<TState>はこのStateBagのラッパーだ。
AIContextProviderが型安全にセッションスコープの状態を管理するためのヘルパーとして機能する。
人間が厳密に設計し、管理するアプローチだ。
ここでは、AIの気まぐれな挙動は許されない。
さらに、最前線の開発現場では、AIをチームメンバーとして扱う手法が確立しつつある。
複数のAIを役割ごとに配置する。
PM役のAIに要件定義をさせ、エンジニア役のAIにコードを書かせる。
人間はマネジメントに徹する。
この手法により、個人開発でも重厚なアーキテクチャを構築できるようになっている。
これらの動きを総合すると、一つの明確なトレンドが見えてくる。
開発の抽象度が、上昇している。
人間が内部ロジックを実装する段階は完全に終わった。
AIエディタをマネジメントする段階すら、過去になろうとしている。
これからは、AI自身がエージェントを自動最適化する段階だ。

※この記事は、Claude Codeで1人SaaS開発しているしんたろーが、海外AI最新情報を開発者目線で解説する「AI活用Tips」です。
コーダーからベンチマーク設計者へのシフト
この変化は、僕ら開発者の存在意義を根本から問い直す。
開発者の役割は「コーダー」から「要件定義と評価指標の設計者」へと完全にシフトした。
もう、エージェントの内部ロジックを直接コーディングする機会は激減する。
これは確実な未来だ。
コードを書くスピードは、もはや何の価値も生み出さない。
AI駆動開発の進化には、明確な3つのグラデーションがある。
- 人間が直接コードを書く
- 人間がAIにコードを書かせる
- AIがAIを実装し最適化する
第一段階は、人間が直接コードを書く。
堅牢なフレームワークを使い、型安全にステートを管理する。
これは従来のシステム開発の延長線上にある。
多くの企業はまだこの段階にとどまっている。
第二段階は、人間がAIにコードを書かせる。
AIエディタにプロジェクト全体を読み込ませる。
人間はフワッとした指示を出すのではなく、詳細な開発チケットを用意する。
AIはそのチケットに従って、プロジェクトに即座に組み込めるコードを生成する。
ここでの人間の役割は、優秀なディレクターだ。
そして第三段階が、AIがAIを実装し最適化する。
メタエージェントが対象エージェントのソースコードを直接書き換える。
人間は、AIが迷わず実装できる詳細な要件定義を用意する。
さらに、AIが自律的に改善ループを回すための自動テスト環境を構築する。
評価指標の設計こそが、人間の最後の砦となる。
しんたろー:
毎日Claude Codeでコード書いてる身からすると、この抽象度の上昇は本当にエグいと思った。
人間がチマチマとプロンプトをいじるのはもう終わりだ。
これからは、いかに質の高いベンチマークを作れるかが勝負になる気がする。
ここで、設計思想の明確な対立がある。
エージェントの内部状態やルーティングをどう管理するか。
一方は、人間が型安全に厳密に設計・管理すると主張する。
もう一方は、AIの試行錯誤による創発的な最適化に委ねると主張する。
この二つのアプローチは、水と油のように交わらない。
エンタープライズ環境では、依然として厳密な管理が求められる。
セキュリティや既存システムとの統合は、AIの試行錯誤だけでは解決できない。
しかし、プロンプトやツール定義の最適化は、完全にAIの領域になった。
堅牢な基盤の上で、柔軟な部分はAIに最適化させる。
このハイブリッドなアプローチが、今後の主流になる。
開発者として生き残るためには、このパラダイムシフトに適応するしかない。
AIが書いたコードをレビューする能力すら、いずれ陳腐化する。
必要なのは、AIが自律的に動くための「環境」を構築する能力だ。
テストコードを書き、ベンチマークを用意し、AIを放つ。
あとは結果を待つだけだ。
しんたろー:
型安全なステート管理と、AIの自律的な書き換え。この2つをどう共存させるかが一番気になっている。
ガチガチに固めすぎるとAIが最適化できないし、緩すぎるとシステムが崩壊する。
この境界線を設計するのが、これからのアーキテクトの仕事になるんだろうなと思った。

ここまで読んだあなたに
今なら無料で全機能をお試しいただけます。設定後は完全放置でプロ品質の投稿を毎日生成。
AIへの指示出しを今すぐやめる理由
で、僕らの開発にどう影響するのか。
結論から言うと、今すぐ開発スタイルを変える。
AIに直接「これを作って」と指示するのは、今日で終わりにしよう。
それは完全に悪手だ。
人間の曖昧な言葉は、AIのパフォーマンスを著しく低下させる。
具体的なアクションは以下の3つだ。
* AIを役割ごとに分割する
* エラーログを無加工で渡す
* 自動テストとベンチマーク環境を構築する
まずは、AIを役割ごとに分割する。
要件定義を行うPM役のAIと、実装を行うエンジニア役のAIを分ける。
人間が直接エンジニア役のAIに指示を出してはいけない。
必ずPM役のAIを挟む。
PM役のAIに、現状の課題、前提条件、追加要件を網羅した詳細な開発チケットを作成させる。
そのチケットを、エンジニア役のAIに渡す。
これが、AIに意図通りのコードを書かせるための最適解だ。
人間のフワッとした指示は、抜け漏れだらけのコードを生むだけだ。
この一手間で、開発効率は10倍変わる。
次に、エラーが出た際の対応を変える。
人間が親切心でエラー内容を意訳してAIに伝えてはいけない。
エラーログをそのまま、一切の加工なしでAIに渡す。
AIは人間よりもはるかに正確に、根本原因を特定できる。
人間の勝手な解釈は、ノイズにしかならない。
そして、自動テストとベンチマーク環境の構築だ。
AIが自律的に改善ループを回すためには、明確な評価指標が不可欠だ。
スコアが上がったか下がったか。
これを機械的に判定できる仕組みを作る。
これがなければ、メタエージェントは機能しない。
しんたろー:
うちの構成でも、Claude Codeに単にコードを書かせるだけじゃ限界が見えてきた気がする。
テストコードをガッチリ書いて、Claude Code自身にテストを回させながら修正させる。
このループを作れるかどうかが、開発スピードの決定的な差になると思った。
Claude Codeを用いた開発でも、このアプローチは極めて有効だ。
単にコードを生成させるツールとして使うのではない。
自律的なエージェントとして振る舞わせる。
そのための土台作りが、人間の最大の仕事になる。
要件定義の解像度を極限まで上げる。
評価指標をコードとして実装する。
あとはAIに任せて、人間は寝る。
これが、これからの開発者の日常になる。
コードを書かない開発者。
一見すると矛盾しているように聞こえる。
しかし、これこそがAI時代の真の開発者の姿だ。
僕らは、より高い抽象度でシステムを設計する側に回る。

よくある質問
Q1: この自律的な仕組みはどのようにエージェントを改善するのですか?
機械学習のモデル学習ループをエージェント開発に応用している。
メタエージェントが対象エージェントのコードを直接書き換え、ベンチマークテストを実行する。
スコアが向上すればその変更を保持し、下がれば破棄する。
このプロセスを一晩中自律的に繰り返すことで、プロンプトやツール定義を極限まで最適化する。
Q2: AI駆動開発でAIに意図通りのコードを書かせるコツは何ですか?
人間が直接フワッとした指示を出すのは厳禁だ。
別のAIをPM役として使い、現状の課題や前提条件を網羅した詳細な「開発チケット」を作成させる。
さらに、エラーが出た際に人間が意訳して伝えず、エラーログをそのまま渡す。
これにより、AIが根本原因を特定しやすくなる。
Q3: 従来のエージェントフレームワークは不要になるのでしょうか?
完全に不要になるわけではない。
自動最適化は強力だが、エンタープライズ環境で求められる厳密なセキュリティや型安全なステート管理には、堅牢な基盤が依然として必要だ。
今後は、堅牢な基盤の上でプロンプトやルーティング部分をAIに最適化させるハイブリッドなアプローチが主流になる。
AIにコードを書かせる時代は終わった
AIにコードを書かせる時代から、AIにエージェントを最適化させる時代へ。
開発者の仕事は確実に次のフェーズに突入した。

この記事が参考になったら、ThreadPostを試してみませんか?
投稿作成・画像生成・スケジュール管理まで、全てAIにお任せできます。
ThreadPostをもっと知る
ThreadPost 代表 / SNS自動化の研究者
ThreadPost運営。Claude Codeで1人SaaS開発しながら、海外AI最新情報を開発者目線で発信中。
@shintaro_campon