Qwen3.6-35B-A3B GGUF

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの RTX 5070 TiとRyzen 9800X3Dを組み合わせ、Qwen3.6-35B-A3Bを秒間79トークン（79 t/s）という実用速度で推論させるローカル環境 llama.cppのMoE専用フラグ（–n-cpu-moe）を活用した、VRAM容量の限界を超えるメモリ最適化設定 128Kコンテキストを維持しつつ、実務で耐えうるレスポンス速度を出す実行スクリプト 📦 この記事に関連する商品 ...