中古のデータセンター向けGPUを流用して、VRAM 24GBのAI開発環境を4万円以下で構築する方法

所要時間: 約60分（パーツが揃っている場合） | 難易度: ★★★★☆

この記事で作るもの

NVIDIA Tesla P40をWindows環境に導入し、VRAM 24GBをフル活用してLlama 3（70B量子化版）をローカルで動かす環境
映像出力のない計算専用GPUを、メインのGeForceと共存させて計算リソースとして認識させる設定
データセンター用GPUの「冷却問題」と「電源問題」を解決する物理的なセットアップ

📦 この記事に関連する商品（楽天メインで価格確認）

NVIDIA Tesla P40

24GBのVRAMを格安で確保するためのメインパーツ

楽天で価格を見る Amazonでも確認

※アフィリエイトリンクを含みます

前提知識：

自作PCのパーツ交換ができる程度のハードウェア知識
コマンドプロンプト（PowerShell）の基本操作

必要なもの：

NVIDIA Tesla P40（中古で2.5万〜3.5万円程度）
冷却用のアクティブファンおよび専用ダクト（3Dプリント品や市販のアダプタ）
EPS 8ピン to PCIe 8ピン電源変換ケーブル
400W以上の余裕がある電源ユニット（P40のTDPは250W）

先に確認するスペック・料金

ローカルLLMを動かす際、最大のボトルネックはGPUのメモリ容量（VRAM）です。 RTX 3060 12GBではLlama 3の8Bモデルが限界ですが、70Bモデルを実用的な速度で動かすには24GB以上のVRAMが欲しくなります。現行のRTX 4090は25万円を超えますが、2016年発売のデータセンター向け「Tesla P40」なら、中古市場で4万円を切る価格で24GBという広大なVRAMが手に入ります。

ただし、安いのには理由があります。 P40には「冷却ファンがない」「映像出力端子がない」「電源ピンの配列が通常のグラボと異なる」という3つの大きな壁があります。これらを解決するために追加で数千円のパーツ購入と、Windows上でのレジストリ操作が必要です。最新のAda Lovelace世代（RTX 40シリーズ）に比べると推論速度は劣りますが、1トークンあたりのコストパフォーマンスは今でも最強クラスです。

なぜこの方法を選ぶのか

VRAMを増やす手段として、Apple Silicon（Mac Studio等）を買う、あるいはRTX 4060 Ti 16GBを2枚挿しにする方法もあります。しかし、Macは非常に高価ですし、GeForceの2枚挿しはレーン数の制限や電源容量で詰まることが多いです。 Tesla P40は、Pascal世代という古さはあるものの、CUDAコア数が3840基と多く、FP32の演算性能はRTX 2080 Tiに匹敵します。

特にRAG（検索拡張生成）の検証や、大規模なコンテキストを読み込ませる作業では、速度よりも「モデルがメモリに乗るかどうか」が死活問題になります。「まずは安く、大規模モデルを自分のマシンで回したい」というエンジニアにとって、P40の導入は最も賢い「裏道」といえます。

Step 1: 物理環境を整える

まずはハードウェアの準備です。Tesla P40はサーバーラックの強力なエアフローを前提としているため、そのままPCケースに入れても1分で熱暴走します。

# 必要な物理パーツの確認リスト
1. NVIDIA Tesla P40 本体
2. 40mm角または50mm角の高静圧ファン
3. P40専用の冷却ダクト（Amazonやメルカリで「Tesla P40 Fan Duct」と検索）
4. CPU用8ピン(EPS)からビデオカード用8ピン(PCIe)への変換ケーブル

⚠️ 落とし穴: P40の電源端子は、通常のグラフィックボードと同じ8ピンに見えますが、ピンアサインが「CPU用（EPS）」と同じです。一般的な電源ユニットから出ているビデオカード用の8ピン（PCIe）を直接挿すと、最悪の場合ショートして発火します。必ず「EPS to PCIe 変換ケーブル」あるいは「Dual PCIe to EPS 変換」を使用してください。

物理的な設置ができたら、ファンを全開で回すように接続します。サーバー用GPUは温度センサーが厳しく、80度を超えると急激にクロックが落とされるため、冷却には妥協しないでください。

Step 2: ドライバのインストールとTCC/WDDMの切り替え

P40をPCに認識させたら、Windowsを起動します。この時点では「基本ディスプレイアダプター」として認識されるか、エラーが出ているはずです。

まず、NVIDIAの公式サイトから「Data Center / Tesla」用のドライバをダウンロードしてインストールします。インストール後、標準では「TCCモード（計算専用モード）」になっていますが、WindowsでGeForceと共存させるには設定が必要です。

# 管理者権限でPowerShellを開き、nvidia-smiで現在の状態を確認
nvidia-smi -L

ここでP40が表示されていることを確認します。次に、P40のモードを切り替えます。

# P40のGPU IDを確認し、WDDMモードに変更（IDが1の場合）
nvidia-smi -g 1 -dm 0

なぜこの設定にするのかというと、TCCモードのままだと一部のWindowsアプリケーションからGPUが見えないことがあるからです。 WDDM（Windows Display Driver Model）に変更することで、Windowsのシステムリソースとして正しく管理されるようになります。

Step 3: レジストリ編集で「計算用」として有効化する

P40には映像出力がないため、Windowsはこれを「無効なディスプレイアダプター」とみなして隠してしまうことがあります。これを強制的に「計算用リソース」として認識させるために、レジストリを操作します。

regeditを起動。
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Class\{4d36e968-e325-11ce-bfc1-08002be10318} を開く。
0000, 0001 といったサブキーの中から、DriverDescが「NVIDIA Tesla P40」となっているものを探す。
そのキーの中に AdapterType（DWORD値）を作成し、値を 1 に設定する。
同様に EnableMsHybrid（DWORD値）を作成し、値を 1 に設定する。

この設定は、映像出力をメインのGeForce（または内蔵GPU）に任せつつ、P40をレンダリングや計算の補助として参加させるための「MS Hybrid」機能を有効にするものです。設定後、PCを再起動してください。

期待される出力

タスクマネージャーの「パフォーマンス」タブに、新しいGPU（Tesla P40）が現れ、VRAMが24GBと表示されていれば成功です。

Step 4: 実用レベルにする（Ollamaでの動作確認）

環境が整ったら、実際にローカルLLMを動かしてみましょう。今回は最も手軽な「Ollama」を使います。

# Ollamaのインストール後、Llama 3 8Bでテスト
ollama run llama3

ここで重要なのは、複数のGPUがある場合にP40が使われているかどうかを確認することです。別のターミナルを開き、以下のコマンドを打ち込んでください。

# 1秒ごとにGPUの使用状況を監視
nvidia-smi -l 1

P40の Volatile GPU-Util が上昇し、Memory-Usage が増えていれば、24GBの広大なメモリ空間が正しく使われています。次に、本命のLlama 3 70Bを試します。

# 70Bモデルの4bit量子化版をロード
ollama run llama3:70b

RTX 3060などの12GBカードではスワップが発生して1トークン/秒も出ませんが、P40なら4〜6トークン/秒程度で動くはずです。読書スピードよりは遅いですが、バックグラウンドで長文の要約や翻訳をさせる実務用途であれば、十分に実用的な速度です。

よくあるトラブルと解決法

エラー内容	原因	解決策
nvidia-smiで認識されない	電源不足またはBIOS設定	BIOSで「Above 4G Decoding」を有効にする
動作中にPCが落ちる	電源変換ケーブルの熱溶解	安価な変換ケーブルを避け、18AWG以上の太い電線を使用したものに変える
速度が異常に遅い	サーマルスロットリング	ファンの回転数を上げるか、ダクトの密閉性を確認する

次のステップ

無事にP40が動き出したら、次は「複数枚挿し」を検討してみてください。 Tesla P40は中古であれば2枚買っても7万円程度です。 2枚挿せばVRAMは48GBになり、Llama 3 70Bをより精度の高い（量子化ビット数の多い）状態で動かしたり、複数のエージェントを同時に立ち上げたりすることが可能になります。

また、DifyやLangChainを使って、このローカル環境をAPIサーバー化するのも面白いでしょう。外部の有料APIを使わずに、プライベートなデータを24GBのメモリを活かして高速にRAGで処理する。これこそが、自作AIサーバーを構築する最大の醍醐味です。

よくある質問

Q1: 古いPascal世代ですが、最新のライブラリは動きますか？

CUDA 12系まで対応しているため、PyTorchやTensorFlowの最新版も動作します。ただし、Flash Attention 2など、Ampere世代以降（RTX 30シリーズ以降）を必須とする一部の高速化技術は使えません。

Q2: ゲーム性能は向上しますか？

期待しないでください。映像出力がないため、メインGPUからレンダリング結果を転送するオーバーヘッドが発生します。あくまで「AI計算専用」として割り切るのが、このカードを最も輝かせる方法です。

Q3: 電気代が心配です。

アイドル時は意外と低く10W程度ですが、推論時は250W近く消費します。実務で24時間回す場合は、電力制限（nvidia-smi -pl [ワット数]）をかけて、効率の良いポイントを探るのがおすすめです。

この記事で作るもの#

先に確認するスペック・料金#

なぜこの方法を選ぶのか#

Step 1: 物理環境を整える#

Step 2: ドライバのインストールとTCC/WDDMの切り替え#

Step 3: レジストリ編集で「計算用」として有効化する#

期待される出力#

Step 4: 実用レベルにする（Ollamaでの動作確認）#

よくあるトラブルと解決法#

次のステップ#

よくある質問#

Q1: 古いPascal世代ですが、最新のライブラリは動きますか？#

Q2: ゲーム性能は向上しますか？#

Q3: 電気代が心配です。#

あわせて読みたい#

📚 関連記事

code-review-graph比較：ローカルLLMとMCPでAIコーディングを極める選び方

ローカルLLM環境の選び方比較｜RTX 4060 Tiから4090、Macまで失敗しないVRAM選び

Claude CodeとCursorを併用してGitHub Issueを自動解決する最強のAI開発環 …

llama.cpp 使い方 入門：GGUF量子化モデルをローカルPCで爆速動作させる方法

MLX 使い方 入門 Apple Silicon ローカルLLM 構築方法

nanobot比較と選び方。ローカルLLMエージェント構築に最適なRTX・Mac構成