AI generated thumbnail

RTX 5070 TiでQwen3.6-35B-A3Bを秒間79トークンで動かすllama.cpp最適化ガイド

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの RTX 5070 TiとRyzen 9800X3Dを組み合わせ、Qwen3.6-35B-A3Bを秒間79トークン(79 t/s)という実用速度で推論させるローカル環境 llama.cppのMoE専用フラグ(–n-cpu-moe)を活用した、VRAM容量の限界を超えるメモリ最適化設定 128Kコンテキストを維持しつつ、実務で耐えうるレスポンス速度を出す実行スクリプト 📦 この記事に関連する商品 ...

2026年4月19日 · 7 分 · 3486 文字 · Negi AI Lab