llama.cppでMulti-Token Predictionを導入してGemma 2の推論速度を40%向上させる方法

所要時間: 約40分 | 難易度: ★★★★☆

この記事で作るもの

llama.cppの最新機能「Multi-Token Prediction（MTP）」を有効化し、ローカル環境のGemma 2（9B/27B）のトークン生成速度を劇的に向上させた推論環境を構築します。単純にモデルを動かすだけでなく、MTP対応のGGUFファイルを適切に指定し、理論値に近い40%前後の高速化を実機で確認するまでの手順を解説します。

前提知識として、基本的なコマンドライン操作（LinuxまたはPowerShell）と、llama.cppのビルド経験があることを想定しています。

先に確認するスペック・料金

MTPによる高速化を享受するには、前提となるハードウェア構成が重要です。結論から言うと、VRAM 12GB以上のNVIDIA製GPU（RTX 3060 12GB以上）を強く推奨します。 MTPは推論時に追加の計算リソースとメモリを消費するため、VRAMがカツカツの状態だと、逆に速度が低下したりメモリ不足で落ちたりするからです。

Apple Silicon（Mac）でも動作しますが、現時点でのMTP最適化の恩恵はCUDA環境（NVIDIA GPU）で最も顕著に現れます。また、MTPは「ベースモデル」と「MTPモジュール」の2つのファイルをメモリに載せる必要があるため、通常のGGUF単体での推論よりも1〜2GB程度余分にVRAMを確保しておいてください。もしRTX 4060（8GB）などを使っている場合は、モデルの量子化率（Q4_K_Mなど）を一段階下げて、メモリに余裕を持たせるのが運用上のコツです。

なぜこの方法を選ぶのか

これまでローカルLLMの高速化といえば「推論エンジンをvLLMに変える」か「投機的サンプリング（Speculative Decoding）」を使うのが一般的でした。しかし、vLLMは個人環境には少々重すぎますし、投機的サンプリングは「軽量なドラフトモデル」を別途用意し、その精度に速度が依存するという不安定さがありました。

MTP（Multi-Token Prediction）は、モデル自体が次のトークンだけでなく、その先のトークンまで同時に予測するように訓練されている手法です。 Gemma 2の一部のモデルはこのMTPに対応しており、llama.cppが正式にこの構造をサポートしたことで、外部のドラフトモデルなしで「モデル自体の能力」として高速化が可能になりました。既存の投機的サンプリングよりもオーバーヘッドが少なく、実装がシンプルなため、実務でローカルLLMを動かすなら現時点で最も筋の良い高速化手法だと言えます。

Step 1: 環境を整える

まずはMTP対応の最新コードを取り込むため、llama.cppをソースからビルドします。バイナリ配布版ではMTPの実装が反映されていない、あるいは古い可能性があるため、必ず最新のmasterブランチからビルドしてください。

# リポジトリのクローン（既に持っている場合は git pull）
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# ビルド（CUDA環境を想定。Macの場合は -DGGML_CUDA=ON を外してビルド）
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

cmakeを実行する際、GGML_CUDA=ONを付けることでGPUをフル活用できるようにします。ビルドが終わったら、build/bin（環境により異なります）の中にllama-cliができていることを確認してください。

⚠️ 落とし穴: CUDA Toolkitのバージョンが古い（12.x未満）と、最新のllama.cppの最適化コードでコンパイルエラーが出ることがあります。また、ビルド済みの実行ファイルを使おうとして「MTPフラグが見つからない」と嘆く人をよく見かけます。 MTPのような先端機能は、必ずその日の最新ソースをビルドする癖をつけてください。

Step 2: 基本の設定

MTPを利用するには、専用のGGUFファイルが必要です。 Hugging Faceで公開されている通常のGemma 2モデルではなく、「MTP-trained」と記載されている、あるいはMTP用の追加データが含まれているGGUFを探します。

今回は、検証済みのモデル構成を使用します。具体的には、メインのモデルファイルと、MTP用の「ドラフトモデル（アダプター）」の2つを準備する形式が一般的です。

# モデルのダウンロード例（huggingface-cliを利用）
# メインモデル（Gemma-2-9b）とMTP用のドラフトモデルを同一フォルダに配置
huggingface-cli download mradermacher/gemma-2-9b-it-mtp-GGUF --local-dir ./models

ダウンロードしたファイルの中に、*-mtp-f16.ggufのような名前のファイルが含まれているはずです。これが高速化の鍵を握る「ドラフト」の役割を果たします。

Step 3: 動かしてみる

準備ができたら、MTPを有効にして起動します。 llama.cppでMTPを利用する場合、内部的には「投機的サンプリングの仕組み」を借りて動作させるため、--speculative-model（または-md）フラグでMTPファイルを指定します。

./build/bin/llama-cli \
  -m ./models/gemma-2-9b-it.Q8_0.gguf \
  --speculative-model ./models/gemma-2-9b-it-mtp-f16.gguf \
  -p "ローカルLLMにおけるMulti-Token Predictionのメリットを3点教えてください。" \
  -n 512 \
  -ngl 99

期待される出力

実行後、ログの最後に以下のような統計が表示されます。

system_info: n_threads = 16 / 32 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | ...
...
llama_print_timings:        load time =     542.12 ms
llama_print_timings:      sample time =      12.45 ms /   156 runs   (    0.08 ms per token, 12530.12 tokens per second)
llama_print_timings: prompt eval time =     210.56 ms /    42 tokens (    5.01 ms per token,   199.47 tokens per second)
llama_print_timings:        eval time =    3200.15 ms /   154 runs   (   20.78 ms per token,    48.12 tokens per second)

ここで注目すべきは eval time の「tokens per second」です。 MTPなしの状態と比較して、この数値が1.3倍〜1.5倍程度になっていれば成功です。私のアセット（RTX 4090）では、Gemma 2 9Bが通常35 tok/s程度のところ、MTP有効時で50 tok/sを超えました。

Step 4: 実用レベルにする

単発のプロンプト実行ではなく、APIサーバーとして立ち上げて、既存のシステムから呼び出せるようにします。 MTPの効果を最大化するには、バッチサイズやドラフトの予測トークン数を調整するのがコツです。

./build/bin/llama-server \
  -m ./models/gemma-2-9b-it.Q8_0.gguf \
  --speculative-model ./models/gemma-2-9b-it-mtp-f16.gguf \
  --speculative-n 2 \
  --ctx-size 4096 \
  --port 8080 \
  -ngl 99

ここで追加した --speculative-n 2 は、「一度に2トークン先まで予測を試みる」という設定です。 Gemma 2のMTPモデルの設計によりますが、基本的には1〜2を指定するのが最も効率が良いです。数値を大きくしすぎると、予測が外れた際の修正コスト（リジェクション・サンプリング）が増大し、かえって遅くなることがあります。

また、エラーハンドリングとして、VRAMが不足した場合は -ngl（GPUにオフロードするレイヤー数）を少しずつ減らしてください。 MTP用のファイルもGPUメモリを消費するため、メインモデルだけでギリギリのVRAM容量だと、サーバー起動時に「CUDA out of memory」で落ちます。

よくあるトラブルと解決法

エラー内容	原因	解決策
`error loading model: invalid model file`	GGUFのバージョンが古い、またはファイルが壊れている	llama.cppを最新版にし、モデルを再ダウンロードする
速度が全く変わらない	`--speculative-model` の指定ミス	ログを確認し、ドラフトモデルが正常にロードされているか見る
推論が途中でループする	MTPモデルとベースモデルのミスマッチ	同じリポジトリから提供されているペアのモデルを使用する

次のステップ

MTPによる高速化が確認できたら、次は「コンテキスト長の拡張」と「RAG（検索拡張生成）への組み込み」に挑戦してください。生成速度が40%上がると、RAGで長い参考文書を読み込ませた際のレスポンス待機時間が劇的に改善されます。

具体的には、DifyやLangChainなどのオーケストレーターから、今回構築したllama.cppのAPIサーバー（localhost:8080）を呼び出すように設定してみてください。「ローカルLLMは遅い」という常識が、このMTPによって「実用的な速度」へと塗り替えられるはずです。さらに上を目指すなら、RTX 4090を2枚挿しして、27BモデルをMTPで爆速駆動させる構成も、エンジニアとしてのロマン（と実益）があります。

よくある質問

Q1: MTPはどんなモデルでも使えるのですか？

いいえ、モデルの学習段階でMulti-Token Predictionの訓練を受けている必要があります。現時点ではGemma 2シリーズの一部や、MTP専用にファインチューニングされたモデルでのみ利用可能です。

Q2: 速度は上がるけど精度が落ちることはありますか？

理論上、精度への影響は軽微です。MTPは「予測を高速化する」ための仕組みであり、最終的に採用されるトークンはベースモデルの確率分布に基づいています。ただし、サンプリングパラメータ（Temperature等）との相性で稀に挙動が変わる可能性はあります。

Q3: CPUのみの環境でも速度向上は期待できますか？

はい、期待できます。MTPは計算回数そのものを減らす（並列化する）手法なので、CPU環境でも同様に「トークン生成1回あたりのオーバーヘッド」が削減され、速度向上の恩恵を受けられます。

📦 この記事に関連する商品（楽天メインで価格確認）

RTX 4060 Ti 16GB

VRAM 16GBによりGemma 2 9BとMTPモジュールを余裕を持ってロード可能

楽天で価格を見る Amazonでも確認

※アフィリエイトリンクを含みます

この記事で作るもの#

先に確認するスペック・料金#

なぜこの方法を選ぶのか#

Step 1: 環境を整える#

Step 2: 基本の設定#

Step 3: 動かしてみる#

期待される出力#

Step 4: 実用レベルにする#

よくあるトラブルと解決法#

次のステップ#

よくある質問#

Q1: MTPはどんなモデルでも使えるのですか？#

Q2: 速度は上がるけど精度が落ちることはありますか？#

Q3: CPUのみの環境でも速度向上は期待できますか？#

あわせて読みたい#

📚 関連記事

Qwen2.5-122Bクラスの巨大なローカルLLMを、サーマルスロットリング（熱による速度低下）を …

UnslothのMTP対応モデルでローカルLLMの推論速度を2倍にする方法

Qwen 3.6 35B A3B 使い方 | ローカルLLMでプロ級のコード解析環境を作る方法

ローカルLLMの推論速度を体感するシミュレーター自作ガイド

BeeLlama.cppでQwenを高速化して200kコンテキストを動かす方法

Qwen 35B A3Bを12GB VRAMで高速化！llama.cpp MTP 使い方