AI generated thumbnail

Gemma 4 12Bを12GB VRAMで120 tok/s駆動させる方法

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの 12GB VRAMの一般向けGPU(RTX 3060等)で、最新モデルGemma 4 12Bを爆速(120 tok/s超)で動作させる推論環境 QAT(量子化を意識した学習)とMTP(複数トークン同時予測)を組み合わせたllama.cppのビルドと実行手順 PythonからAPI経由でこの爆速モデルを叩き、実用的なアプリに組み込むためのベースコード 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年6月7日 · 9 分 · 4312 文字 · Negi AI Lab
AI generated thumbnail

ローカルLLM爆速化!llama.cppのMTP対応で選ぶべきGPUとMac比較

3行要約 llama.cppがMTP(Multi-Token Prediction)に対応し、推論速度が劇的に向上する準備が整った 推論の「待ち時間」が減ることで、CursorやClaude CodeのバックエンドをローカルLLMに置き換える実用性が一気に高まった VRAM 16GB以上のRTX 40シリーズ、またはメモリ64GB以上のApple Silicon Macが「投資すべき最低ライン」になる 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月19日 · 8 分 · 3814 文字 · Negi AI Lab
AI generated thumbnail

Qwen 35B A3Bを12GB VRAMで高速化!llama.cpp MTP 使い方

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの 12GB VRAMのミドルクラスGPUで、Qwen3.6 35B A3B(MoEモデル)を毎秒80トークン以上の爆速で動作させる環境 128Kの長大なコンテキストを維持しつつ、推論速度を犠牲にしないllama.cppのMTP設定 Pythonからこの高速推論環境を呼び出し、実際の業務で活用するための推論スクリプト 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月10日 · 9 分 · 4293 文字 · Negi AI Lab
AI generated thumbnail

Qwen 3.6 27Bをllama.cppで高速化して50 t/sを叩き出す方法

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの Qwen 3.6 27B(MTP対応モデル)を、llama.cppの特定のパッチを適用して爆速で動かす環境 100kコンテキストという広大なメモリ領域を使いつつ、秒間50トークン以上の推論速度を実現するセットアップ Pythonや複雑なライブラリに依存せず、軽量なC++バイナリでモデルを運用する基盤 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月7日 · 8 分 · 3929 文字 · Negi AI Lab