AI generated thumbnail

Qwen 35B A3Bを12GB VRAMで高速化!llama.cpp MTP 使い方

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの 12GB VRAMのミドルクラスGPUで、Qwen3.6 35B A3B(MoEモデル)を毎秒80トークン以上の爆速で動作させる環境 128Kの長大なコンテキストを維持しつつ、推論速度を犠牲にしないllama.cppのMTP設定 Pythonからこの高速推論環境を呼び出し、実際の業務で活用するための推論スクリプト 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月10日 · 9 分 · 4293 文字 · Negi AI Lab