AI generated thumbnail

Qwen 35B A3Bを12GB VRAMで高速化!llama.cpp MTP 使い方

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの 12GB VRAMのミドルクラスGPUで、Qwen3.6 35B A3B(MoEモデル)を毎秒80トークン以上の爆速で動作させる環境 128Kの長大なコンテキストを維持しつつ、推論速度を犠牲にしないllama.cppのMTP設定 Pythonからこの高速推論環境を呼び出し、実際の業務で活用するための推論スクリプト 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月10日 · 9 分 · 4293 文字 · Negi AI Lab
AI generated thumbnail

Qwen 3.6 27Bをllama.cppで高速化して50 t/sを叩き出す方法

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの Qwen 3.6 27B(MTP対応モデル)を、llama.cppの特定のパッチを適用して爆速で動かす環境 100kコンテキストという広大なメモリ領域を使いつつ、秒間50トークン以上の推論速度を実現するセットアップ Pythonや複雑なライブラリに依存せず、軽量なC++バイナリでモデルを運用する基盤 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月7日 · 8 分 · 3929 文字 · Negi AI Lab