AIエージェントが実用段階に入った。SWE-bench Verifiedでスコア70%超えを記録するモデルが登場している。
開発の主戦場は「モデルの賢さ」から「実行環境の使い分け」へ移行した。
SNS運用を自動化しませんか?
ThreadPostなら、投稿作成・画像生成・スケジュール管理まで全てAIにお任せ。
爆速で進化するAIエージェントの正体
Poolsideが発表したLagunaシリーズは、225B(2,250億パラメータ)の「Laguna M.1」と、ローカル動作に特化した33B(330億パラメータ)の「Laguna XS.2」で構成される。
これらはMoE(Mixture-of-Experts)を採用しており、推論時の計算コストを抑えつつ高い性能を維持する。
特にLaguna XS.2は、3B(30億パラメータ)分のみをアクティブ化するため、36GBのRAMを搭載したMacで動作する。
一方で、Mistral AIの「Vibe」は、ローカルのターミナルから作業をクラウドへテレポートさせる機能を備える。
重いリファクタリングやCI調査をクラウド上の隔離されたサンドボックスへ丸投げし、並列処理が可能だ。
AIはコードを書き、テストを実行し、GitHubにプルリクエストを作成する。
開発者はその成果をレビューするフローへ移行している。
しんたろー:
SWE-benchで70%近い数字が出ている。開発者の仕事は「コードを書くこと」から「AIの出力を承認すること」へシフトしていると感じる。
開発者の常識を破壊する「セッションの可搬性」
Laguna XS.2はSWA(Sliding Window Attention)を採用し、131,072トークンのコンテキストを扱いながらメモリ消費を抑制する。
ローカルで機密性の高いコードを扱い、重いタスクはクラウドへ引き継ぐ運用が現実的だ。
最新のエージェント環境では、ローカルの「状態」をそのままクラウドへ引き継げる。
履歴や変数の状態を保持したまま、コマンド一つでクラウド上のエージェントにバトンタッチする。
「どこで推論し、どこで実行するか」をタスクの重さに応じて選択するハイブリッドな開発が標準になる。
エージェントはツール呼び出しの前に内部で「思考」を巡らせる。
この思考プロセスは可視化され、推論の妥当性を監視できる。
しんたろー:
自分でコマンドを打つのではなく、AIにタスクを投げる感覚だ。細かいUI調整はローカルで、重いAPI連携のデバッグはクラウドで行う使い分けが気になる。
ここまで読んだあなたに
今なら無料で全機能をお試しいただけます。設定後は完全放置でプロ品質の投稿を毎日生成。
僕らの開発ワークフローはどう変わるのか
開発者は「マルチモデルルーティング」の視点を持つ必要がある。
タスクの複雑さを判定し、最適なモデルと環境に振り分ける仕組みが重要だ。
具体的なアクションは以下の通りだ。
- ローカルモデルの活用:33BクラスのMoEモデルをOllama等で動かし、APIレイテンシを回避する。
- エージェントのステート管理:サンドボックスでの実行を前提とし、非同期な開発フローを構築する。
- 指示の質を向上:SWE-benchで高スコアを出すエージェントに対し、ゴール設定を明確にする。
AIは「自律的に動くジュニア開発者」としてターミナルやクラウドに常駐する。
彼らにどの席を与え、どの仕事を任せるかの采配が開発者の役割だ。
しんたろー:
AIをどう「配置」するかの勝負だ。1人SaaS開発ではリソースが限られるため、ローカルとクラウドのルーティング感覚を磨くのが近道だと思った。
FAQ
Q1: ローカルモデルとクラウドモデル、どちらを優先すべきですか?
タスクの「機密性」と「粒度」で判断する。機密性の高いコードや小さなリファクタリングにはLaguna XS.2のようなローカルモデルが適している。CI環境の調査や大規模なリファクタリングには、Mistral Vibeのようなクラウド実行環境を持つエージェントが向いている。
Q2: マルチモデルルーティングを導入する際の注意点は?
単なるコスト計算だけで選ばないこと。各モデルには「推論の癖」や「ツール利用の成功率」に差がある。タスクの複雑度だけでなく、必要なツール呼び出し回数を判定基準に含める。まずは単純な振り分けから始め、徐々に分類器を導入する。
Q3: エージェントが自律的に動くことで、開発者の評価基準はどう変わりますか?
「コードを速く書ける」価値は低下する。評価基準は「システムの全体設計」と「AIが出した成果物の検証能力」に集約される。AIが生成したコードがアーキテクチャを壊していないか、セキュリティホールがないかを判断する能力が求められる。
AI時代を生き抜くための「武器」を手に入れよう
AIは「仕事の解像度」を上げている。
ローカルの軽量モデルとクラウドのエージェントを使いこなすことは必須だ。
AIエージェントに作業を任せ、設計や価値創造に集中する未来へ移行する。
具体的な自動化の手法は、運営サービスで深掘りしている。

この記事が参考になったら、ThreadPostを試してみませんか?
投稿作成・画像生成・スケジュール管理まで、全てAIにお任せできます。
ThreadPostをもっと知る