なぜLLMに計算を任せるとAI開発は失敗するのか。Claude CodeとLangfuseによる自動評価が必須な理由 | しんたろーのAI活用メモ