Gemma 4 120Bに備える！ローカルLLM用GPUとMacの選び方：おすすめ環境比較

3行要約

Gemma 4の目玉とされる120Bモデルを動かすには、最低でもVRAM 64GB〜80GB（量子化時）が必要になる
推論速度と学習を重視するなら「RTX 4090の複数枚挿し」、安定性とメモリ容量なら「Mac Studio（128GB以上）」が分岐点
16GB以下のVRAMでは次世代の大型モデルは「読み込みすらできない」リスクがあるため、今買うなら妥協は禁物

📦 この記事に関連する商品（楽天メインで価格確認）

GeForce RTX 4090 24GB

Gemma 4 120Bを高速に動かすための必須パーツ。2枚挿しが推奨。

※アフィリエイトリンクを含みます

結論: まず選ぶべき構成

Gemma 2 9Bや27Bで世界を驚かせたGoogleが、次世代の「Gemma 4」で120B（1200億パラメータ）クラスを投入する動きを見せています。実務でAIを触る人間にとって、これは「ついにローカルでGPT-4クラスの知能が、プライバシーを保ったまま実用速度で動く」時代の到来を意味します。

結論から言えば、Gemma 4のフルパワーを引き出したいなら、今すぐ「VRAMの壁」を突破する投資をすべきです。 120Bクラスのモデルを4ビット量子化（実用レベルの精度維持）で動かす場合、単純計算で約70GB前後のメモリを消費します。つまり、これまでの「RTX 4090を1枚（24GB）持っていれば最強」という時代は終わりました。

これから機材を揃えるなら、以下の2択が正解です。

Windows/Linux自作派: RTX 4090を2枚、あるいは3枚挿せる環境を構築する。1枚あたり24GB、2枚で48GB、3枚で72GB。120Bを動かすなら3枚、あるいは高度な量子化（IQ2_XSなど）を駆使して2枚が限界ラインです。
Mac派: Mac StudioのM2 Ultra / M3 Ultra（予定）で、メモリ（Unified Memory）を128GB以上積む。

中途半端に「RTX 4070 Ti Super 16GB」などを1枚買って満足していると、Gemma 4 120Bの登場時に「モデルがロードできない」という絶望を味わうことになります。業務効率化やAIコーディング（CursorやAiderでのローカルモデル利用）を本気で考えるなら、メモリ容量こそが正義です。

用途別おすすめ

用途	推奨構成/商品カテゴリ	理由	注意点
入門・軽量モデル検証	RTX 4060 Ti 16GB	2万〜3万円の追加投資で16GB確保はコスパ最強	Gemma 4 120Bは動かない。9B/27B専用
本格開発・高速推論	RTX 4090 (24GB) x 2	推論速度が圧倒的。120Bも軽量量子化なら動く	電源1200W以上、熱対策、スロット幅が難関
巨大モデル安定運用	Mac Studio (128GB)	統一メモリでVRAM不足の心配がほぼない	推論速度（token/s）はGPU複数枚に劣る
サーバーサイド実装	RTX 6000 Ada (48GB)	単体で48GB。省スペースで2枚挿しが容易	1枚100万円超。個人には非現実的な価格

入門者が今から買うなら：RTX 4060 Ti 16GBモデル一択

もしあなたが「まずはローカルLLMを動かしてみたい」というフェーズなら、RTX 4060 Tiの16GB版を選んでください。8GB版は絶対に避けるべきです。Gemma 4の最小モデル（恐らく9B前後）を快適に動かすには、OSの消費分を含めて12GB以上のVRAMがあると安心だからです。楽天やAmazonで「RTX 4060 Ti 16GB」と検索すれば、8万円台で見つかります。

業務で「使い倒す」エンジニアなら：Mac Studio M2 Ultra

自作PCの騒音や電気代、設定の煩雑さを避けたいなら、Mac Studioの128GBメモリ構成が最も「仕事」に使えます。ローカルLLMをOllamaやMLX経由で動かしつつ、ブラウザやIDEを同時に立ち上げてもメモリ不足になりません。特にMac OS上の「LM Studio」や「AnythingLLM」を使えば、エンジニアでなくても数クリックでGemma 4を試せる環境が手に入ります。

研究・エッジな開発者なら：RTX 4090 2枚挿し

私のように「1秒間に何トークン出るか」を追求するなら、NVIDIA一択です。Gemma 4 120Bを「ExLlamaV2」などの高速ライブラリで動かした場合、Macよりも明らかにレスポンスが速いです。特にコード生成AI（ClineやAider）と連携させる場合、この速度差が「思考の途切れ」を防ぐ重要な要素になります。

買う前のチェックリスト

1. VRAM容量は「モデルサイズ × 0.7」以上あるか

120Bモデルを4bitで動かすなら 120 × 0.5 = 60GB 程度。これにコンテキストウィンドウ（文脈維持）用のメモリを加えると、70〜80GBは必要です。24GBのGPU 1枚では、Gemma 4の「真の力（120B）」には届きません。自分がどのサイズのモデルを動かしたいか、逆算して購入してください。

2. マザーボードの「レーン数」と「スロット間隔」

RTX 4090を2枚挿そうとして、物理的に入らなかったり、下のGPUが上のGPUの熱を吸ってサーマルスロットリングを起こしたりするケースが多発しています。2枚挿しをするなら、3スロット以上の間隔があるマザーボード、あるいは水冷モデル（MSI SUPRIM LIQUIDなど）を選ぶ必要があります。

3. 電源ユニットの容量とコネクタ（12VHPWR）

RTX 4090は1枚で最大450W消費します。2枚ならGPUだけで900W。CPUやその他を合わせると、1500Wクラスの電源が必須です。また、最近のGPUはコネクタの接続が甘いと融解するリスクがあるため、信頼できるメーカー（SeaSonicやCorsair）のATX 3.0/3.1対応電源を選ぶのが実務者の常識です。

4. Apple Siliconの「メモリ帯域」

Macを選ぶ際、無印やProチップは避けるべきです。メモリ帯域（メモリとチップ間の通信速度）が、UltraやMaxに比べて大幅に狭いため、同じメモリ量でもローカルLLMの推論速度が半分以下になります。120Bモデルを動かすなら、帯域が広い「M2 Ultra」か「M3 Max」以上の構成を強くおすすめします。

楽天/Amazonで見るべき検索キーワード

楽天でポイントを貯めつつ、高額な機材を賢く揃えるためのキーワードをまとめました。

検索キーワード	向いている人	避けた方がいい人
RTX 4090 24GB	最高の速度と性能を求める自作派	予算を抑えたい人、電気代が気になる人
Mac Studio M2 Ultra 128GB	設定不要で巨大モデルを安定して動かしたい人	3DCGやゲーム開発もメインで行う人
RTX 4060 Ti 16GB	10万円以下でローカルLLM入門を済ませたい人	Gemma 4 120Bを動かしたい人
1500W 電源 ATX 3.0	GPU 2枚挿しを検討している人	標準的なデスクトップPCの人
ProArt X670E-CREATOR	拡張性重視でGPU 2枚挿し自作をしたい人	コンパクトなPCを求めている人

代替案と妥協ライン

「いきなり50万円のPCなんて買えない」という方への妥協案は2つあります。

一つは、Gemma 4の「中型モデル（27B前後）」にターゲットを絞ることです。 Gemma 2の時もそうでしたが、Googleのモデルはサイズに対して異常に賢いです。27Bモデルであれば、VRAM 24GB（RTX 3090の中古やRTX 4090）が1枚あれば、お釣りがくるレベルで高速に動きます。まずは中古のRTX 3090（楽天やAmazonで12〜15万円程度）を狙うのが、最も賢い「最初の一歩」かもしれません。

もう一つは、クラウドGPUの活用です。 RunPodやLambda GPUを使えば、A100（VRAM 80GB）を1時間100円〜200円程度で借りられます。毎日8時間動かすのでなければ、年間サブスク料金よりも安く済みます。ハードウェアを買う前に、まずはクラウドでGemma 4 120Bを試してみて、「これは一生手元に置いておきたい」と確信してから購入しても遅くはありません。

ただし、プライバシーに関わるコードを書かせたり、社外秘の資料をRAG（外部知識参照）で読み込ませたりする場合は、ローカル機材の所有が長期的なコスト・安全面で勝ります。

私ならこう選ぶ

私なら、迷わず 「RTX 4090 24GB」の2枚挿し構成 を楽天のセール時に狙います。

理由は、ローカルLLMを動かす最大のメリットが「試行錯誤の回転数」にあるからです。Mac Studioは確かにメモリ容量で有利ですが、同じモデルを動かした時のトークン生成速度はRTX 4090 2枚挿しに軍配が上がります。特にCursorやClaude Codeのようなエージェント系ツールをローカルモデルで回す際、レスポンスが1秒遅れるだけで開発体験は著しく損なわれます。

具体的には、以下の構成をベースにパーツを揃えます。

GPU: MSI GeForce RTX 4090 SUPRIM LIQUID X（水冷で薄いため2枚挿ししやすい）
マザーボード: ASUS ProArt X670E-CREATOR WIFI（10G LAN搭載でRAG用のデータ転送も速い）
電源: Corsair HX1500i（大容量かつ静音性が高い）

楽天で「RTX 4090」を検索すると、ポイント還元を含めれば実質20万円台後半で手に入るタイミングがあります。そこを狙って1枚ずつ買い足すのが、サイフへのダメージを最小限にするコツです。

よくある質問

Q1: VRAM 12GBのGPUを持っています。Gemma 4 120Bは全く動かない？

はい、4ビット量子化でもメモリ不足でロードすらできません。ただし、Gemma 4には小型の9Bモデルなども含まれるはずなので、そちらなら爆速で動きます。120Bを動かしたいなら、GPUの買い替えかMacへの移行が必須です。

Q2: Macのメモリは「64GB」と「128GB」で迷っています。

120Bモデルをターゲットにするなら、迷わず128GBです。64GBだと、OSや他のアプリにメモリを取られた際、モデルがスワップ（低速なSSDへの書き出し）を起こし、推論速度が使い物にならないレベルまで低下します。

Q3: NVIDIAの次世代（RTX 5090）を待つべき？

待てるなら待つのも手ですが、リーク情報ではVRAMは32GBに留まるという説が濃厚です。120Bを動かすには、どのみち2枚以上の構成が必要になることに変わりはありません。今の機材で「今すぐ」開発を始める方が、スキルの蓄積という面で価値が高いと思います。

3行要約#

結論: まず選ぶべき構成#

用途別おすすめ#

入門者が今から買うなら：RTX 4060 Ti 16GBモデル一択#

業務で「使い倒す」エンジニアなら：Mac Studio M2 Ultra#

研究・エッジな開発者なら：RTX 4090 2枚挿し#

買う前のチェックリスト#

1. VRAM容量は「モデルサイズ × 0.7」以上あるか#

2. マザーボードの「レーン数」と「スロット間隔」#

3. 電源ユニットの容量とコネクタ（12VHPWR）#

4. Apple Siliconの「メモリ帯域」#

楽天/Amazonで見るべき検索キーワード#

代替案と妥協ライン#

私ならこう選ぶ#

よくある質問#

Q1: VRAM 12GBのGPUを持っています。Gemma 4 120Bは全く動かない？#

Q2: Macのメモリは「64GB」と「128GB」で迷っています。#

Q3: NVIDIAの次世代（RTX 5090）を待つべき？#

あわせて読みたい#

📚 関連記事

AIコーディング新時代。Claude CodeがRust/Bunで加速する今、エンジニアが投資すべき …

AI Agent学習の決定版「ai-agent-book」活用ガイド：ローカルLLM環境とVRAMの …

ローカルLLMおすすめPC構成比較！Qwen3到来で変わるVRAMの選び方と買う前の注意点

Claude Code用Macおすすめ構成と比較！予備機をAIコーディング専用機にする選び方

Kimi K3がGPT-5.6超え？最新AIランキングから選ぶ実務用PCスペック比較と選び方

code-review-graph比較：ローカルLLMとMCPでAIコーディングを極める選び方