12GB VRAM GPU

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの 12GB VRAMのミドルクラスGPUで、Qwen3.6 35B A3B（MoEモデル）を毎秒80トークン以上の爆速で動作させる環境 128Kの長大なコンテキストを維持しつつ、推論速度を犠牲にしないllama.cppのMTP設定 Pythonからこの高速推論環境を呼び出し、実際の業務で活用するための推論スクリプト 📦 この記事に関連する商品（楽天メインで価格確認） ...