3行要約
- 122Bクラスの超巨大モデルは、VRAM容量ではなく「システムメモリ(RAM)」への投資で動作自体は可能になる。
- 8GB GPUで動かすのは「検証・学習用」として割り切り、実務のコーディング支援ならVRAM 24GB以上の1枚挿しが最低ライン。
- 予算20万円以下なら「大容量RAM搭載デスクトップ」、40万円出せるなら「RTX 4090」か「Mac Studio」が正解。
📦 この記事に関連する商品(楽天メインで価格確認)
RTX 4060 Ti 16GBVRAM 16GBで中規模LLMまでカバーできる、入門に最適な1枚
※アフィリエイトリンクを含みます
結論: まず選ぶべき構成
ローカルLLMを動かす際、多くの人が「最強のGPUを買わなければならない」という強迫観念に囚われています。しかし、Redditで話題になった「122B MoEモデルを8GB VRAMで動かす」という手法は、VRAM不足をシステムメモリ(RAM)で補う「オフロード」という技術を極限まで活用したものです。
結論から言えば、あなたが「巨大モデルの挙動を安く検証したい」のであれば、GPUに予算を全振りするのではなく、64GBや128GBのRAMを積んだPCを構築するのが最も賢い選択です。逆に、「CursorやClineの裏側でサクサク動かしたい」という実務目的であれば、この手法は推奨しません。推論速度が1トークン/秒を切るレベルまで落ち込み、仕事にならないからです。
私が20件以上の案件をこなしてきた経験から断言すると、仕事で使える構成は以下の2パターンに集約されます。
- 検証・個人開発(10〜20万円): RTX 4060 Ti (16GB) + RAM 64GB以上
- 実務・AIエージェント運用(40万円〜): RTX 4090 (24GB) 1枚、あるいはMac Studio (M2/M3 Ultra)
8GBのGPUしか持っていなくても、今回のような手法を使えば122B(DeepSeek-V3やQwen2-57Bクラス)を動かすこと自体はできます。しかし、それは「動く」だけであって「使える」ではない。この記事では、あなたの予算と目的に合わせて、楽天やAmazonで何を買うのが正解かを具体的に提示します。
用途別おすすめ
| 用途 | 推奨構成/商品カテゴリ | 理由 | 注意点 |
|---|---|---|---|
| 入門・検証 | RTX 4060 Ti 16GB + DDR5 64GB | 低予算で122Bモデルまで「動作」を確認できる。16GB VRAMがあれば小規模モデルは爆速。 | 122Bクラスの推論速度は極めて遅い(数秒/1文字)。 |
| 実務・AI開発 | RTX 4090 24GB + DDR5 128GB | 現行最高速。DeepSeek-V2.5等の軽量量子化なら実用速度で動く。 | 消費電力が大きく、1200W以上の電源ユニットが必須。 |
| Mac派・静音重視 | Mac Studio (メモリ128GB以上) | 統一メモリの恩恵で巨大モデルも安定。GPU2枚挿しの手間がない。 | Apple Silicon最適化(MLX等)が必要。ゲーム性能は低い。 |
| 趣味の極み | RTX 3090/4090 2枚挿し (VRAM 48GB) | Llama-3-70Bクラスを完全にVRAMに載せて高速推論が可能。 | PCケースの排熱とレーン数の知識が必要。中古パーツの目利きも重要。 |
入門・検証:とりあえず動かしてみたい層へ
「AIに興味はあるが、いきなり50万円は出せない」という方は、GPUはミドルレンジに抑え、マザーボードのメモリスロットを4つ埋める構成にしてください。DDR5の32GB枚を4本挿して128GBにするだけで、122B MoEモデルが「ローカルで動く」という感動を味わえます。
実務・AI開発:仕事の道具として使う層へ
VS Codeの拡張機能(Cursor, Aider, Cline)と連携させてコーディングを自動化したいなら、VRAM 24GBは必須です。RTX 4090であれば、DeepSeek-Coder-V2の量子化版などを実用的なレスポンスで返せます。8GB GPUでの代用は、思考の中断を招くため実務には向きません。
買う前のチェックリスト
1. VRAM容量と「オフロード」の理解
GPUのVRAM(ビデオメモリ)は高速ですが、容量あたりの単価が高いです。今回のトピックのように、VRAMに入り切らない重いモデル(122Bなど)を動かす場合、余ったデータをシステムメモリ(RAM)に逃がします。このとき、GPUとRAMを繋ぐ「PCIe」の帯域がボトルネックになります。8GB GPUで動かすなら、この速度低下を許容できるかどうかが最大の分岐点です。
2. マザーボードのメモリスロット数
「後でメモリを増やせばいい」と考えている方、注意してください。安価なマザーボードやノートPCはスロットが2つしかない、あるいは直付けで増設不可能な場合があります。122Bモデルを視野に入れるなら、最大128GB〜192GBまで載せられる「スロット4つ」のマザーボードを選ばないと、後で詰みます。
3. 電源ユニットの容量とコネクタ
RTX 4090などの上位GPUを選ぶ場合、電源は850Wでは足りないケースが多いです。特にスパイク(瞬間的な電力消費)を考慮すると、1000W〜1200Wの「80PLUS GOLD」以上が推奨されます。また、最新の12VHPWRコネクタに対応している電源を選ぶと、配線がスッキリし、発火リスクも抑えられます。
4. Apple SiliconかWindows/Linuxか
Macの「統一メモリ(Unified Memory)」は、VRAMとシステムメモリの区別がありません。128GBメモリのMac Studioを買えば、そのまま120GB近いLLMを読み込めます。自作PCでVRAM 128GBを実現しようとすると、A100などのプロ用GPUが必要になり、数百万円コースです。設定の簡単さと大容量モデルへの対応力なら、今はMac Studioに軍配が上がります。
楽天/Amazonで見るべき検索キーワード
楽天でポイントを貯めつつ、実務に耐えるパーツを探すためのキーワードを厳選しました。
| 検索キーワード | 向いている人 | 避けた方がいい人 |
|---|---|---|
| RTX 4060 Ti 16GB | コスパ重視でローカルLLMを始めたい人。 | 122Bモデルをサクサク動かしたい人(遅すぎる)。 |
| RTX 4090 24GB | 予算があり、現時点で最強の推論環境が欲しい人。 | 電源や冷却の知識がない人、小型PCを使いたい人。 |
| DDR5 64GB セット | 巨大モデルを安価に動作させたい自作ユーザー。 | ノートPCユーザー、Macユーザー。 |
| Mac Studio M2 Ultra 128GB | 設定を最小限に、巨大モデルを安定して使いたいプロ。 | 予算20万円以下の人、将来的にパーツ交換したい人。 |
| 1200W 電源 ATX3.0 | ハイエンドGPUを安全に運用したい人。 | ローエンド〜ミドルレンジのGPUを使う人。 |
代替案と妥協ライン
「122Bをローカルで動かす」ことにこだわりすぎないのも、一つのプロの判断です。
妥協案1:APIの利用(月額サブスク)
DeepSeekやGroq、OpenRouterのAPIを使えば、122B以上のモデルを1トークン0.1円以下、あるいは無料で利用できます。ハードウェアに40万円投資する前に、まずはAPIで「そのモデルが本当に自分の業務に必要か」を検証すべきです。月額20ドル(約3,000円)のChatGPT PlusやClaude Proで十分なケースは多々あります。
妥協案2:中古のRTX 3090
「VRAM 24GBは欲しいが、25万円は出せない」という場合、中古のRTX 3090(12〜15万円程度)が非常に有力な選択肢になります。VRAM容量は4090と同じ24GBあり、LLMの推論においては十分な性能を発揮します。ただし、マイニング等で酷使された個体も多いため、楽天の中古保証付きショップなどを利用するのが無難です。
妥協案3:量子化(Quantization)の活用
モデルのサイズを1/4〜1/8に圧縮する「量子化」を前提にすれば、122Bモデルも60GB〜80GB程度のRAMで動きます。llama.cppの「Q4_K_M」などの設定を使いこなすことで、ハードウェアの要求スペックを一段階下げることが可能です。
私ならこう選ぶ
私が今から予算を組んで、実務(コーディング・RAG構築)を前提に環境を作るなら、迷わず**「RTX 4090搭載のBTOデスクトップ」**をベースにします。
まず楽天で「RTX 4090」と検索し、ASUSやMSIの信頼できるボードが載っているショップを探します。ポイント還元率が高い「お買い物マラソン」などの時期を狙えば、実質価格で20万円台後半まで落とせるからです。
構成の肝は、メモリです。あえてBTOの標準構成(32GB)のまま購入し、Amazonで「DDR5 64GB (32GBx2)」または「DDR5 128GB」のメモリを別途購入して自分で差し替えます。BTOオプションでメモリを増やすより、自分でパーツを買ったほうが1〜2万円安く、高品質なメモリを選べるからです。
8GBのGPUで巨大モデルを動かす試みは面白いですが、それはあくまで「知的好奇心」を満たすためのもの。フリーランスとして納期がある仕事をこなすなら、速度は正義です。VRAM 24GBという「壁」を一度超えてしまえば、その後の開発体験は劇的に変わります。
よくある質問
Q1: 8GB VRAMで122Bを動かした時、具体的にどのくらいの速度になりますか?
実装やRAMの速度によりますが、0.1〜0.5トークン/秒程度になることが予想されます。100文字の回答を得るのに数分かかる計算です。チャットとしての実用性はほぼありませんが、バッチ処理や夜間にタスクを回しておく用途なら成立します。
Q2: DDR4メモリとDDR5メモリ、LLM推論で差は出ますか?
今回のように「VRAMからRAMへデータを逃がす」構成の場合、メモリ帯域が直接速度に直結します。DDR4よりもDDR5の方が明らかに高速です。これからPCを新調するなら、ローカルLLM用途ではDDR5一択だと考えてください。
Q3: 4060 Tiの8GB版と16GB版、どちらがおすすめですか?
断然16GB版です。VRAMの8GBの差は、ローカルLLMにおいては「動くモデルの選択肢」が2倍以上変わることを意味します。価格差は1〜2万円程度ですが、その差でLlama-3-8Bなどの軽量モデルを完全にVRAMへ載せられるかどうかが決まります。






