
RTX 5070 TiでQwen3.6-35B-A3Bを秒間79トークンで動かすllama.cpp最適化ガイド
所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの RTX 5070 TiとRyzen 9800X3Dを組み合わせ、Qwen3.6-35B-A3Bを秒間79トークン(79 t/s)という実用速度で推論させるローカル環境 llama.cppのMoE専用フラグ(–n-cpu-moe)を活用した、VRAM容量の限界を超えるメモリ最適化設定 128Kコンテキストを維持しつつ、実務で耐えうるレスポンス速度を出す実行スクリプト 📦 この記事に関連する商品 ...