Qwen2.5 32B 使い方

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るものローカルLLMのQwen2.5-32B-Instructを使い、KV Cache（キー・バリュー・キャッシュ）を最適化することで、複雑なツール利用（MCP連携など）を高速にこなす自律型エージェントの基盤を構築します。 PythonのコードからOllamaのAPIを叩き、長いシステムプロンプトを保持したまま、レスポンス速度を維持する設定を実装します。この記事を読み終える頃には、手元のPCで「思考が速く、指示を忘れない」実用レベルのAIエージェントが動いています。 ...