ローカルLLM環境の選び方｜122Bモデルを8GB VRAMで動かす現実解と失敗しないPC構成

3行要約

122Bクラスの超巨大モデルは、VRAM容量ではなく「システムメモリ（RAM）」への投資で動作自体は可能になる。
8GB GPUで動かすのは「検証・学習用」として割り切り、実務のコーディング支援ならVRAM 24GB以上の1枚挿しが最低ライン。
予算20万円以下なら「大容量RAM搭載デスクトップ」、40万円出せるなら「RTX 4090」か「Mac Studio」が正解。

📦 この記事に関連する商品（楽天メインで価格確認）

RTX 4060 Ti 16GB

VRAM 16GBで中規模LLMまでカバーできる、入門に最適な1枚

※アフィリエイトリンクを含みます

結論: まず選ぶべき構成

ローカルLLMを動かす際、多くの人が「最強のGPUを買わなければならない」という強迫観念に囚われています。しかし、Redditで話題になった「122B MoEモデルを8GB VRAMで動かす」という手法は、VRAM不足をシステムメモリ（RAM）で補う「オフロード」という技術を極限まで活用したものです。

結論から言えば、あなたが「巨大モデルの挙動を安く検証したい」のであれば、GPUに予算を全振りするのではなく、64GBや128GBのRAMを積んだPCを構築するのが最も賢い選択です。逆に、「CursorやClineの裏側でサクサク動かしたい」という実務目的であれば、この手法は推奨しません。推論速度が1トークン/秒を切るレベルまで落ち込み、仕事にならないからです。

私が20件以上の案件をこなしてきた経験から断言すると、仕事で使える構成は以下の2パターンに集約されます。

検証・個人開発（10〜20万円）: RTX 4060 Ti (16GB) + RAM 64GB以上
実務・AIエージェント運用（40万円〜）: RTX 4090 (24GB) 1枚、あるいはMac Studio (M2/M3 Ultra)

8GBのGPUしか持っていなくても、今回のような手法を使えば122B（DeepSeek-V3やQwen2-57Bクラス）を動かすこと自体はできます。しかし、それは「動く」だけであって「使える」ではない。この記事では、あなたの予算と目的に合わせて、楽天やAmazonで何を買うのが正解かを具体的に提示します。

用途別おすすめ

用途	推奨構成/商品カテゴリ	理由	注意点
入門・検証	RTX 4060 Ti 16GB + DDR5 64GB	低予算で122Bモデルまで「動作」を確認できる。16GB VRAMがあれば小規模モデルは爆速。	122Bクラスの推論速度は極めて遅い（数秒/1文字）。
実務・AI開発	RTX 4090 24GB + DDR5 128GB	現行最高速。DeepSeek-V2.5等の軽量量子化なら実用速度で動く。	消費電力が大きく、1200W以上の電源ユニットが必須。
Mac派・静音重視	Mac Studio (メモリ128GB以上)	統一メモリの恩恵で巨大モデルも安定。GPU2枚挿しの手間がない。	Apple Silicon最適化（MLX等）が必要。ゲーム性能は低い。
趣味の極み	RTX 3090/4090 2枚挿し (VRAM 48GB)	Llama-3-70Bクラスを完全にVRAMに載せて高速推論が可能。	PCケースの排熱とレーン数の知識が必要。中古パーツの目利きも重要。

入門・検証：とりあえず動かしてみたい層へ

「AIに興味はあるが、いきなり50万円は出せない」という方は、GPUはミドルレンジに抑え、マザーボードのメモリスロットを4つ埋める構成にしてください。DDR5の32GB枚を4本挿して128GBにするだけで、122B MoEモデルが「ローカルで動く」という感動を味わえます。

実務・AI開発：仕事の道具として使う層へ

VS Codeの拡張機能（Cursor, Aider, Cline）と連携させてコーディングを自動化したいなら、VRAM 24GBは必須です。RTX 4090であれば、DeepSeek-Coder-V2の量子化版などを実用的なレスポンスで返せます。8GB GPUでの代用は、思考の中断を招くため実務には向きません。

買う前のチェックリスト

1. VRAM容量と「オフロード」の理解

GPUのVRAM（ビデオメモリ）は高速ですが、容量あたりの単価が高いです。今回のトピックのように、VRAMに入り切らない重いモデル（122Bなど）を動かす場合、余ったデータをシステムメモリ（RAM）に逃がします。このとき、GPUとRAMを繋ぐ「PCIe」の帯域がボトルネックになります。8GB GPUで動かすなら、この速度低下を許容できるかどうかが最大の分岐点です。

2. マザーボードのメモリスロット数

「後でメモリを増やせばいい」と考えている方、注意してください。安価なマザーボードやノートPCはスロットが2つしかない、あるいは直付けで増設不可能な場合があります。122Bモデルを視野に入れるなら、最大128GB〜192GBまで載せられる「スロット4つ」のマザーボードを選ばないと、後で詰みます。

3. 電源ユニットの容量とコネクタ

RTX 4090などの上位GPUを選ぶ場合、電源は850Wでは足りないケースが多いです。特にスパイク（瞬間的な電力消費）を考慮すると、1000W〜1200Wの「80PLUS GOLD」以上が推奨されます。また、最新の12VHPWRコネクタに対応している電源を選ぶと、配線がスッキリし、発火リスクも抑えられます。

4. Apple SiliconかWindows/Linuxか

Macの「統一メモリ（Unified Memory）」は、VRAMとシステムメモリの区別がありません。128GBメモリのMac Studioを買えば、そのまま120GB近いLLMを読み込めます。自作PCでVRAM 128GBを実現しようとすると、A100などのプロ用GPUが必要になり、数百万円コースです。設定の簡単さと大容量モデルへの対応力なら、今はMac Studioに軍配が上がります。

楽天/Amazonで見るべき検索キーワード

楽天でポイントを貯めつつ、実務に耐えるパーツを探すためのキーワードを厳選しました。

検索キーワード	向いている人	避けた方がいい人
RTX 4060 Ti 16GB	コスパ重視でローカルLLMを始めたい人。	122Bモデルをサクサク動かしたい人（遅すぎる）。
RTX 4090 24GB	予算があり、現時点で最強の推論環境が欲しい人。	電源や冷却の知識がない人、小型PCを使いたい人。
DDR5 64GB セット	巨大モデルを安価に動作させたい自作ユーザー。	ノートPCユーザー、Macユーザー。
Mac Studio M2 Ultra 128GB	設定を最小限に、巨大モデルを安定して使いたいプロ。	予算20万円以下の人、将来的にパーツ交換したい人。
1200W 電源 ATX3.0	ハイエンドGPUを安全に運用したい人。	ローエンド〜ミドルレンジのGPUを使う人。

代替案と妥協ライン

「122Bをローカルで動かす」ことにこだわりすぎないのも、一つのプロの判断です。

妥協案1：APIの利用（月額サブスク）

DeepSeekやGroq、OpenRouterのAPIを使えば、122B以上のモデルを1トークン0.1円以下、あるいは無料で利用できます。ハードウェアに40万円投資する前に、まずはAPIで「そのモデルが本当に自分の業務に必要か」を検証すべきです。月額20ドル（約3,000円）のChatGPT PlusやClaude Proで十分なケースは多々あります。

妥協案2：中古のRTX 3090

「VRAM 24GBは欲しいが、25万円は出せない」という場合、中古のRTX 3090（12〜15万円程度）が非常に有力な選択肢になります。VRAM容量は4090と同じ24GBあり、LLMの推論においては十分な性能を発揮します。ただし、マイニング等で酷使された個体も多いため、楽天の中古保証付きショップなどを利用するのが無難です。

妥協案3：量子化（Quantization）の活用

モデルのサイズを1/4〜1/8に圧縮する「量子化」を前提にすれば、122Bモデルも60GB〜80GB程度のRAMで動きます。llama.cppの「Q4_K_M」などの設定を使いこなすことで、ハードウェアの要求スペックを一段階下げることが可能です。

私ならこう選ぶ

私が今から予算を組んで、実務（コーディング・RAG構築）を前提に環境を作るなら、迷わず**「RTX 4090搭載のBTOデスクトップ」**をベースにします。

まず楽天で「RTX 4090」と検索し、ASUSやMSIの信頼できるボードが載っているショップを探します。ポイント還元率が高い「お買い物マラソン」などの時期を狙えば、実質価格で20万円台後半まで落とせるからです。

構成の肝は、メモリです。あえてBTOの標準構成（32GB）のまま購入し、Amazonで「DDR5 64GB (32GBx2)」または「DDR5 128GB」のメモリを別途購入して自分で差し替えます。BTOオプションでメモリを増やすより、自分でパーツを買ったほうが1〜2万円安く、高品質なメモリを選べるからです。

8GBのGPUで巨大モデルを動かす試みは面白いですが、それはあくまで「知的好奇心」を満たすためのもの。フリーランスとして納期がある仕事をこなすなら、速度は正義です。VRAM 24GBという「壁」を一度超えてしまえば、その後の開発体験は劇的に変わります。

よくある質問

Q1: 8GB VRAMで122Bを動かした時、具体的にどのくらいの速度になりますか？

実装やRAMの速度によりますが、0.1〜0.5トークン/秒程度になることが予想されます。100文字の回答を得るのに数分かかる計算です。チャットとしての実用性はほぼありませんが、バッチ処理や夜間にタスクを回しておく用途なら成立します。

Q2: DDR4メモリとDDR5メモリ、LLM推論で差は出ますか？

今回のように「VRAMからRAMへデータを逃がす」構成の場合、メモリ帯域が直接速度に直結します。DDR4よりもDDR5の方が明らかに高速です。これからPCを新調するなら、ローカルLLM用途ではDDR5一択だと考えてください。

Q3: 4060 Tiの8GB版と16GB版、どちらがおすすめですか？

断然16GB版です。VRAMの8GBの差は、ローカルLLMにおいては「動くモデルの選択肢」が2倍以上変わることを意味します。価格差は1〜2万円程度ですが、その差でLlama-3-8Bなどの軽量モデルを完全にVRAMへ載せられるかどうかが決まります。

3行要約#

結論: まず選ぶべき構成#

用途別おすすめ#

入門・検証：とりあえず動かしてみたい層へ#

実務・AI開発：仕事の道具として使う層へ#

買う前のチェックリスト#

1. VRAM容量と「オフロード」の理解#

2. マザーボードのメモリスロット数#

3. 電源ユニットの容量とコネクタ#

4. Apple SiliconかWindows/Linuxか#

楽天/Amazonで見るべき検索キーワード#

代替案と妥協ライン#

妥協案1：APIの利用（月額サブスク）#

妥協案2：中古のRTX 3090#

妥協案3：量子化（Quantization）の活用#

私ならこう選ぶ#

よくある質問#

Q1: 8GB VRAMで122Bを動かした時、具体的にどのくらいの速度になりますか？#

Q2: DDR4メモリとDDR5メモリ、LLM推論で差は出ますか？#

Q3: 4060 Tiの8GB版と16GB版、どちらがおすすめですか？#

あわせて読みたい#

📚 関連記事

Claude Code用Macおすすめ構成と比較！予備機をAIコーディング専用機にする選び方

Kimi K3がGPT-5.6超え？最新AIランキングから選ぶ実務用PCスペック比較と選び方

code-review-graph比較：ローカルLLMとMCPでAIコーディングを極める選び方

ローカルLLM環境の選び方比較｜RTX 4060 Tiから4090、Macまで失敗しないVRAM選び

ローカルLLMとAIコーディング推奨PC比較：Linus Torvaldsの「AI攻撃中止」発言から …

ローカルLLM環境の選び方比較｜RTXかMacか？後悔しないVRAM・スペック選定ガイド