3行要約

  • 122Bクラスの超巨大モデルは、VRAM容量ではなく「システムメモリ(RAM)」への投資で動作自体は可能になる。
  • 8GB GPUで動かすのは「検証・学習用」として割り切り、実務のコーディング支援ならVRAM 24GB以上の1枚挿しが最低ライン。
  • 予算20万円以下なら「大容量RAM搭載デスクトップ」、40万円出せるなら「RTX 4090」か「Mac Studio」が正解。

📦 この記事に関連する商品(楽天メインで価格確認)

RTX 4060 Ti 16GB

VRAM 16GBで中規模LLMまでカバーできる、入門に最適な1枚

楽天で価格を見る Amazonでも確認

※アフィリエイトリンクを含みます

結論: まず選ぶべき構成

ローカルLLMを動かす際、多くの人が「最強のGPUを買わなければならない」という強迫観念に囚われています。しかし、Redditで話題になった「122B MoEモデルを8GB VRAMで動かす」という手法は、VRAM不足をシステムメモリ(RAM)で補う「オフロード」という技術を極限まで活用したものです。

結論から言えば、あなたが「巨大モデルの挙動を安く検証したい」のであれば、GPUに予算を全振りするのではなく、64GBや128GBのRAMを積んだPCを構築するのが最も賢い選択です。逆に、「CursorやClineの裏側でサクサク動かしたい」という実務目的であれば、この手法は推奨しません。推論速度が1トークン/秒を切るレベルまで落ち込み、仕事にならないからです。

私が20件以上の案件をこなしてきた経験から断言すると、仕事で使える構成は以下の2パターンに集約されます。

  1. 検証・個人開発(10〜20万円): RTX 4060 Ti (16GB) + RAM 64GB以上
  2. 実務・AIエージェント運用(40万円〜): RTX 4090 (24GB) 1枚、あるいはMac Studio (M2/M3 Ultra)

8GBのGPUしか持っていなくても、今回のような手法を使えば122B(DeepSeek-V3やQwen2-57Bクラス)を動かすこと自体はできます。しかし、それは「動く」だけであって「使える」ではない。この記事では、あなたの予算と目的に合わせて、楽天やAmazonで何を買うのが正解かを具体的に提示します。

用途別おすすめ

用途推奨構成/商品カテゴリ理由注意点
入門・検証RTX 4060 Ti 16GB + DDR5 64GB低予算で122Bモデルまで「動作」を確認できる。16GB VRAMがあれば小規模モデルは爆速。122Bクラスの推論速度は極めて遅い(数秒/1文字)。
実務・AI開発RTX 4090 24GB + DDR5 128GB現行最高速。DeepSeek-V2.5等の軽量量子化なら実用速度で動く。消費電力が大きく、1200W以上の電源ユニットが必須。
Mac派・静音重視Mac Studio (メモリ128GB以上)統一メモリの恩恵で巨大モデルも安定。GPU2枚挿しの手間がない。Apple Silicon最適化(MLX等)が必要。ゲーム性能は低い。
趣味の極みRTX 3090/4090 2枚挿し (VRAM 48GB)Llama-3-70Bクラスを完全にVRAMに載せて高速推論が可能。PCケースの排熱とレーン数の知識が必要。中古パーツの目利きも重要。

入門・検証:とりあえず動かしてみたい層へ

「AIに興味はあるが、いきなり50万円は出せない」という方は、GPUはミドルレンジに抑え、マザーボードのメモリスロットを4つ埋める構成にしてください。DDR5の32GB枚を4本挿して128GBにするだけで、122B MoEモデルが「ローカルで動く」という感動を味わえます。

実務・AI開発:仕事の道具として使う層へ

VS Codeの拡張機能(Cursor, Aider, Cline)と連携させてコーディングを自動化したいなら、VRAM 24GBは必須です。RTX 4090であれば、DeepSeek-Coder-V2の量子化版などを実用的なレスポンスで返せます。8GB GPUでの代用は、思考の中断を招くため実務には向きません。

買う前のチェックリスト

1. VRAM容量と「オフロード」の理解

GPUのVRAM(ビデオメモリ)は高速ですが、容量あたりの単価が高いです。今回のトピックのように、VRAMに入り切らない重いモデル(122Bなど)を動かす場合、余ったデータをシステムメモリ(RAM)に逃がします。このとき、GPUとRAMを繋ぐ「PCIe」の帯域がボトルネックになります。8GB GPUで動かすなら、この速度低下を許容できるかどうかが最大の分岐点です。

2. マザーボードのメモリスロット数

「後でメモリを増やせばいい」と考えている方、注意してください。安価なマザーボードやノートPCはスロットが2つしかない、あるいは直付けで増設不可能な場合があります。122Bモデルを視野に入れるなら、最大128GB〜192GBまで載せられる「スロット4つ」のマザーボードを選ばないと、後で詰みます。

3. 電源ユニットの容量とコネクタ

RTX 4090などの上位GPUを選ぶ場合、電源は850Wでは足りないケースが多いです。特にスパイク(瞬間的な電力消費)を考慮すると、1000W〜1200Wの「80PLUS GOLD」以上が推奨されます。また、最新の12VHPWRコネクタに対応している電源を選ぶと、配線がスッキリし、発火リスクも抑えられます。

4. Apple SiliconかWindows/Linuxか

Macの「統一メモリ(Unified Memory)」は、VRAMとシステムメモリの区別がありません。128GBメモリのMac Studioを買えば、そのまま120GB近いLLMを読み込めます。自作PCでVRAM 128GBを実現しようとすると、A100などのプロ用GPUが必要になり、数百万円コースです。設定の簡単さと大容量モデルへの対応力なら、今はMac Studioに軍配が上がります。

楽天/Amazonで見るべき検索キーワード

楽天でポイントを貯めつつ、実務に耐えるパーツを探すためのキーワードを厳選しました。

検索キーワード向いている人避けた方がいい人
RTX 4060 Ti 16GBコスパ重視でローカルLLMを始めたい人。122Bモデルをサクサク動かしたい人(遅すぎる)。
RTX 4090 24GB予算があり、現時点で最強の推論環境が欲しい人。電源や冷却の知識がない人、小型PCを使いたい人。
DDR5 64GB セット巨大モデルを安価に動作させたい自作ユーザー。ノートPCユーザー、Macユーザー。
Mac Studio M2 Ultra 128GB設定を最小限に、巨大モデルを安定して使いたいプロ。予算20万円以下の人、将来的にパーツ交換したい人。
1200W 電源 ATX3.0ハイエンドGPUを安全に運用したい人。ローエンド〜ミドルレンジのGPUを使う人。

代替案と妥協ライン

「122Bをローカルで動かす」ことにこだわりすぎないのも、一つのプロの判断です。

妥協案1:APIの利用(月額サブスク)

DeepSeekやGroq、OpenRouterのAPIを使えば、122B以上のモデルを1トークン0.1円以下、あるいは無料で利用できます。ハードウェアに40万円投資する前に、まずはAPIで「そのモデルが本当に自分の業務に必要か」を検証すべきです。月額20ドル(約3,000円)のChatGPT PlusやClaude Proで十分なケースは多々あります。

妥協案2:中古のRTX 3090

「VRAM 24GBは欲しいが、25万円は出せない」という場合、中古のRTX 3090(12〜15万円程度)が非常に有力な選択肢になります。VRAM容量は4090と同じ24GBあり、LLMの推論においては十分な性能を発揮します。ただし、マイニング等で酷使された個体も多いため、楽天の中古保証付きショップなどを利用するのが無難です。

妥協案3:量子化(Quantization)の活用

モデルのサイズを1/4〜1/8に圧縮する「量子化」を前提にすれば、122Bモデルも60GB〜80GB程度のRAMで動きます。llama.cppの「Q4_K_M」などの設定を使いこなすことで、ハードウェアの要求スペックを一段階下げることが可能です。

私ならこう選ぶ

私が今から予算を組んで、実務(コーディング・RAG構築)を前提に環境を作るなら、迷わず**「RTX 4090搭載のBTOデスクトップ」**をベースにします。

まず楽天で「RTX 4090」と検索し、ASUSやMSIの信頼できるボードが載っているショップを探します。ポイント還元率が高い「お買い物マラソン」などの時期を狙えば、実質価格で20万円台後半まで落とせるからです。

構成の肝は、メモリです。あえてBTOの標準構成(32GB)のまま購入し、Amazonで「DDR5 64GB (32GBx2)」または「DDR5 128GB」のメモリを別途購入して自分で差し替えます。BTOオプションでメモリを増やすより、自分でパーツを買ったほうが1〜2万円安く、高品質なメモリを選べるからです。

8GBのGPUで巨大モデルを動かす試みは面白いですが、それはあくまで「知的好奇心」を満たすためのもの。フリーランスとして納期がある仕事をこなすなら、速度は正義です。VRAM 24GBという「壁」を一度超えてしまえば、その後の開発体験は劇的に変わります。

よくある質問

Q1: 8GB VRAMで122Bを動かした時、具体的にどのくらいの速度になりますか?

実装やRAMの速度によりますが、0.1〜0.5トークン/秒程度になることが予想されます。100文字の回答を得るのに数分かかる計算です。チャットとしての実用性はほぼありませんが、バッチ処理や夜間にタスクを回しておく用途なら成立します。

Q2: DDR4メモリとDDR5メモリ、LLM推論で差は出ますか?

今回のように「VRAMからRAMへデータを逃がす」構成の場合、メモリ帯域が直接速度に直結します。DDR4よりもDDR5の方が明らかに高速です。これからPCを新調するなら、ローカルLLM用途ではDDR5一択だと考えてください。

Q3: 4060 Tiの8GB版と16GB版、どちらがおすすめですか?

断然16GB版です。VRAMの8GBの差は、ローカルLLMにおいては「動くモデルの選択肢」が2倍以上変わることを意味します。価格差は1〜2万円程度ですが、その差でLlama-3-8Bなどの軽量モデルを完全にVRAMへ載せられるかどうかが決まります。


あわせて読みたい