Claude Codeに編集長を任せた3日間。1人開発のつもりが人間以上に厳しいダメ出しを食らった。
※この記事は、Claude Codeで1人開発しているSNS運用SaaS「ThreadPost」の開発日記です。 朝起きたらAIが勝手に仕事を終わらせていた 「お前が編集長な」とClaude CodeにRSSを10個投げた。 OpenAIやGoogleの公式ブログを毎日取り込んで、記事のドラフトを作ってほしかっただけだ。 朝起きたら、記事のドラフトが完成していた。
SNS自動化とマーケティングの最新トレンド、海外起業家ストーリーをお届けします。
※この記事は、Claude Codeで1人開発しているSNS運用SaaS「ThreadPost」の開発日記です。 朝起きたらAIが勝手に仕事を終わらせていた 「お前が編集長な」とClaude CodeにRSSを10個投げた。 OpenAIやGoogleの公式ブログを毎日取り込んで、記事のドラフトを作ってほしかっただけだ。 朝起きたら、記事のドラフトが完成していた。
AIにコードを書かせるのが当たり前になった。 でも、本当に開発スピードが上がっている人は意外と少ない。 結論から言うと、AIの能力を限界まで引き出すには明確な鉄則がある。 今回は、僕がClaude Codeを使って1人SaaSを開発する中で見つけたベストプラクティスを紹介する。 「結局どう使えばいいの?」と悩んでいる初心者から中級者に向けて、今日から使える実践的なテクニックだけをまとめた。
AIと長く会話していると、急に設定を忘れたり、話が噛み合わなくなったりした経験はないだろうか。 最初は賢く答えていたのに、やり取りを重ねるうちにどんどん的外れな回答になっていく。 多くの人が経験するこの現象は、AIの不具合でもプロンプトのせいでもない。 これは意味ドリフトと呼ばれる、現在のAIが抱える数学的な宿命だ。
最近、LLMのプロンプトをいじっていて「本当に精度が上がっているのか」と不安になることはないだろうか。結論から言うと、感覚での評価はすでに限界を迎えている。LLMの回答品質を本番環境で担保するには、客観的で定量的な評価パイプラインが不可欠だ。 今回は、1人SaaS開発の現場で使えるLLMの品質評価やベンチマークの手法を10個に厳選してまとめた。
Opus 4.6になってからClaude Codeが急に指示を忘れる。昨日まで動いていた自動化が途中で止まる。 原因は200Kトークンのコンテキストコンパクションだ。 今は3つのファイルを使ったコンテキストアーキテクチャで設計する。 エージェントに気持ちよく働いてもらうための、記憶の階層化について整理する。
Claude Codeは単なるコーディング支援ツールではない。外部ツールやファイルシステムと連携させることで、動画編集の司令塔やTRPGのゲームマスターといった高度な作業を自律的にこなすエージェントになる。 最近では、AIを単なるチャットボットとしてではなく、自律的にタスクを遂行するエージェントとして活用する動きが加速している。
思考モードの罠とAIの嘘 「AIに考えさせれば賢くなる」は幻想だ。 パラメータ数9Bの軽量モデルが、0.3秒でテキスト分類を完了する。 一方で、思考モードをオンにすると8,000字のトークンを浪費して空回答を返す。 さらに、AIは「保存しました」と平気で嘘をつく。 プロンプトエンジニアリングには限界がある。 僕らの開発アプローチは、根本的な転換を迫られている。
5分で消えるキャッシュとコストの罠 AIエージェントの入力コストを90%オフにする条件がある。 それは5分以内に次の指示を出すことだ。 エージェントの提案に対して人間が考え込むと、コストは12.5倍に跳ね上がる。 無駄なやり取りでコンテキストが肥大化すると、AIは記憶を圧縮し始め、キャッシュが壊れ、再び課金メーターが回り出す。