NVIDIA DiffusionGemma-26B-NVFP4をRTX 40シリーズで動かし、超高精度な画像生成プロンプト生成環境を構築する方法

Q: model-optのインストールでエラーが出ます

NVIDIAの独自インデックスを指定する必要があります。--extra-index-url https://pypi.nvidia.comを忘れると、標準のPyPIからは見つかりません。また、依存関係でtensorrtを要求されることが多いため、環境を汚したくない場合は必ずDockerやvenvなどの仮想環境を使いましょう。

所要時間: 約40分 | 難易度: ★★★★☆

この記事で作るもの

この記事を読むと、VRAM容量の壁で諦めていた26B（260億パラメータ）級の巨大モデル「DiffusionGemma」を、NVIDIAの最新量子化技術「NVFP4」を用いてRTX 4090などのコンシューマーGPUで高速動作させ、画像生成AIのための「最強のプロンプト記述補助AI」をローカル環境に構築できます。

DiffusionGemma-26BをNVFP4形式で読み込み推論するPythonスクリプト
日本語の曖昧な指示を、Stable DiffusionやFlux.1で使える詳細な英語プロンプトへ変換する仕組み
NVIDIA Model Optimizer（model-opt）を利用した最新の推論環境

先に確認するスペック・料金

このモデルを動かすには、NVIDIAの「Ada Lovelace」世代以降のGPUが必須です。具体的にはRTX 40シリーズ（4070 Ti, 4080, 4090）またはワークステーション向けのRTX 6000 Adaなどが必要です。NVFP4（4ビット浮動小数点）はハードウェアレベルでの対応が求められるため、RTX 30シリーズ以前のカードでは本来のパフォーマンスが出せない、あるいは動作しない可能性が高い点に注意してください。

VRAMは最低でも16GB、快適に動かすなら24GB（RTX 4090）を推奨します。NVFP4化によってモデルサイズは約15GB程度まで圧縮されていますが、推論時のKVキャッシュやシステム全体の負荷を考えると、16GBモデルではかなりギリギリの戦いになります。

ソフトウェア面では、CUDA 12.4以上、そして最新のNVIDIAドライバが必須です。API料金はかかりませんが、環境構築にHugging Faceのアクセストークンが必要になるため、あらかじめ取得しておいてください。

なぜこの方法を選ぶのか

通常、26BクラスのモデルをFP16（半精度浮動小数点）で動かそうとすると、モデルだけで約52GBのVRAMを消費します。これはA100（80GB）のような1枚100万円以上する業務用GPUでなければ太刀打ちできない領域です。

これを解決するために従来はGGUFやEXL2といった量子化手法が使われてきましたが、NVIDIAが公式に提供する「NVFP4」は、ハードウェアのTensorコアに最適化されているため、計算精度を維持しつつ推論速度を劇的に向上させます。特にDiffusionGemmaのような「画像の文脈を深く理解し、詳細な描写を生成する」モデルにおいては、量子化による知能の低下を最小限に抑えることが重要であり、NVIDIA公式の最適化スタックを使うのが現状のベストプラクティスと言えます。

Step 1: 環境を整える

まずは最新のNVIDIAスタックをインストールします。従来のLLM環境とは異なり、model-opt（NVIDIA Model Optimizer）というライブラリが必要になるのがポイントです。

# 仮想環境の作成（Python 3.10以上を推奨）
python -m venv venv
source venv/bin/activate  # Windowsの場合は venv\Scripts\activate

# 必須ライブラリのインストール
pip install --upgrade pip
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install transformers accelerate sentencepiece huggingface_hub
pip install nvidia-model-opt --extra-index-url https://pypi.nvidia.com

nvidia-model-optは、NVFP4形式のテンソルを正しく処理するために必要です。これがないと、モデルをロードした瞬間に「データ形式が不明です」とエラーを吐いて止まります。

⚠️ 落とし穴: WSL2環境で構築する場合、CUDAドライバが古いとNVFP4のカーネル呼び出しでセグメンテーションフォルトが発生することがあります。Windows側のドライバを最新のGame ReadyまたはStudioドライバに更新した上で、nvidia-smiでCUDAバージョンが12.4以上であることを必ず確認してください。

Step 2: 基本の設定

Hugging Faceからモデルをダウンロードするための認証と、モデル読み込みの設定を行います。DiffusionGemmaはGemma 2 27Bのアーキテクチャをベースにしているため、通常のGemmaクラスを利用します。

import os
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from huggingface_hub import login

# Hugging Faceのトークンを設定
# 直接書くのではなく、環境変数から読み込むのが私のスタイルです
huggingface_token = os.getenv("HF_TOKEN")
if huggingface_token:
    login(token=huggingface_token)
else:
    print("エラー: 環境変数 HF_TOKEN が設定されていません。")

# モデルIDの指定
model_id = "nvidia/diffusiongemma-26B-A4B-it-NVFP4"

# NVFP4モデルを読み込むための設定
# device_map="auto" により、VRAMが足りない場合に自動でメモリを割り振ります
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True
)

この時、trust_remote_code=Trueを忘れないでください。NVIDIAの量子化モデルは独自の読み込みロジックを含む場合があるため、これを指定しないと読み込みに失敗します。

Step 3: 動かしてみる

まずは最小限のコードで、DiffusionGemmaが正しく応答するかテストします。このモデルは「画像生成のための指示（プロンプト）」を生成することに特化しているため、入力には「どんな画像を作りたいか」を渡します。

def generate_prompt(input_text):
    messages = [
        {"role": "user", "content": f"Create a detailed image generation prompt for: {input_text}"},
    ]

    # テンプレートを適用
    prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

    # 推論実行。max_new_tokensは詳細な描写を出すために長めに設定
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.7,
            top_p=0.9,
            do_sample=True
        )

    return tokenizer.decode(outputs[0][inputs['input_ids'].shape[-1]:], skip_special_tokens=True)

# テスト実行
result = generate_prompt("A futuristic Tokyo street at night, neon lights, rainy weather.")
print(f"--- Generated Prompt ---\n{result}")

期待される出力

A hyper-realistic, wide-angle cinematic shot of a futuristic Tokyo street submerged in a twilight rain. The asphalt is slick and reflective, mirroring the vibrant, flickering neon signs in electric blue, hot pink, and acid green. Pedestrians with translucent umbrellas navigate past hovering food stalls. Soft volumetric fog mingles with the steam rising from drainage grates. Shot on 35mm lens, f/1.8, high contrast, cyberpunk aesthetic.

単なる「未来の東京」という指示が、カメラ設定やライティング、具体的なディテールを含んだ「AIが理解しやすいプロンプト」に拡張されていることが分かります。

Step 4: 実用レベルにする

実務で使うなら、日本語の入力を受け取り、それを英語のプロンプトに変換した上で、そのまま画像生成AI（Stable Diffusion WebUIやComfyUI）のAPIに投げるスクリプトに拡張するのが理想的です。ここでは、日本語のニュアンスを汲み取るためのシステムプロンプトを強化します。

import time

def professional_image_assistant(japanese_query):
    # 日本語の曖昧な指示を、具体的なビジュアル要素に解体するよう指示
    system_instruction = (
        "あなたはプロの画像生成ディレクターです。ユーザーの日本語の指示を元に、"
        "構図、ライティング、質感、カメラ設定を含む最高品質の英語プロンプトを作成してください。"
        "出力は英語のプロンプト本文のみを出力してください。"
    )

    full_prompt = f"{system_instruction}\n\n指示: {japanese_query}"

    start_time = time.time()

    # 推論
    response = generate_prompt(full_prompt)

    end_time = time.time()
    print(f"処理時間: {end_time - start_time:.2f}秒")

    return response

# 実行例
user_input = "森の中でピアノを弾く少女。光が差し込んでいる。幻想的な雰囲気。"
final_prompt = professional_image_assistant(user_input)

print(f"画像生成用プロンプト:\n{final_prompt}")

このスクリプトを使えば、私たちが「なんとなく」入力した指示が、プロフェッショナルなプロンプトに昇華されます。RTX 4090を使用した場合、26Bという巨体ながらNVFP4の効果で、1秒間に数十トークンの速度でプロンプトが生成されるはずです。このレスポンスの速さは、従来のFP16モデルでは到底味わえなかった体験です。

よくあるトラブルと解決法

エラー内容	原因	解決策
`RuntimeError: CUDA error: invalid argument`	GPUがNVFP4（Ada世代）に対応していない。	RTX 40シリーズ以降を使用しているか確認。30系以前ならGGUF版を探す。
`OutOfMemoryError`	VRAM不足。特にバックグラウンドでブラウザや他のAIが動いている。	他のVRAM消費アプリを落とすか、`load_in_4bit=True`などを併用。
`ImportError: No module named 'model_opt'`	NVIDIA Model Optimizerが未インストール。	`pip install nvidia-model-opt`を`--extra-index-url`付きで実行。

次のステップ

DiffusionGemma-26Bを動かせるようになったら、次はこれをComfyUIのカスタムノードとして組み込むことに挑戦してみてください。プロンプト生成専用のLLMノードとして配置すれば、「日本語でやりたいことを書く」→「LLMが英語プロンプトを生成」→「画像生成AIが描画」という完全自動ワークフローがローカルで完結します。

また、26Bという規模は論理的推論能力も非常に高いため、単なるプロンプト生成だけでなく、画像の内容を説明させる（キャプショニング）のバックエンドとして活用するのも面白いでしょう。RTX 4090を2枚挿している環境なら、1枚をこのモデル専用、もう1枚を画像生成専用に割り当てることで、待ち時間ゼロの創作環境が手に入ります。

よくある質問

Q1: RTX 3090でも動きますか？

結論から言うと、動く可能性はありますが「速く」はありません。NVFP4はRTX 40シリーズの第4世代Tensorコア向けに最適化されています。3090はVRAM 24GBあるためメモリ的には余裕ですが、計算効率が上がらないため、通常の4bit量子化（BitsAndBytesなど）を使ったほうが安定する場合があります。

Q2: model-optのインストールでエラーが出ます

NVIDIAの独自インデックスを指定する必要があります。--extra-index-url https://pypi.nvidia.comを忘れると、標準のPyPIからは見つかりません。また、依存関係でtensorrtを要求されることが多いため、環境を汚したくない場合は必ずDockerやvenvなどの仮想環境を使いましょう。

Q3: 日本語で直接プロンプトを出せますか？

このモデルは英語での出力を前提に調整されています。日本語で回答させようとすると、画像生成AI（Stable Diffusionなど）が理解しにくい「説明文」になってしまうことが多いです。今回紹介したように「日本語を解釈して英語プロンプトとして出力させる」という橋渡し役（アダプター）として使うのが、実務上最も賢い選択です。

📦 この記事に関連する商品（楽天メインで価格確認）

GeForce RTX 4090

24GBのVRAMとNVFP4対応により26Bモデルを最高速で動かす必須装備

楽天で価格を見る Amazonでも確認

※アフィリエイトリンクを含みます

この記事で作るもの#

先に確認するスペック・料金#

なぜこの方法を選ぶのか#

Step 1: 環境を整える#

Step 2: 基本の設定#

Step 3: 動かしてみる#

期待される出力#

Step 4: 実用レベルにする#

よくあるトラブルと解決法#

次のステップ#

よくある質問#

Q1: RTX 3090でも動きますか？#

Q2: model-optのインストールでエラーが出ます#

Q3: 日本語で直接プロンプトを出せますか？#

あわせて読みたい#

📚 関連記事

MLX 使い方 入門 Apple SiliconでローカルLLMを動かす方法

MLX入門：Apple SiliconでローカルLLMを爆速で動かす方法

OllamaとOpen WebUIを組み合わせて、データの外部流出を完全に防ぎながらChatGPTと …

OllamaとOpen WebUIで自分専用のローカルLLM環境を構築する方法

Whisper 使い方 ローカル完全構築ガイド

Claude CodeとCursorを併用する最強AIコーディング環境の使い方