所要時間: 約60分(パーツが揃っている場合) | 難易度: ★★★★☆
この記事で作るもの
- NVIDIA Tesla P40をWindows環境に導入し、VRAM 24GBをフル活用してLlama 3(70B量子化版)をローカルで動かす環境
- 映像出力のない計算専用GPUを、メインのGeForceと共存させて計算リソースとして認識させる設定
- データセンター用GPUの「冷却問題」と「電源問題」を解決する物理的なセットアップ
📦 この記事に関連する商品(楽天メインで価格確認)
NVIDIA Tesla P4024GBのVRAMを格安で確保するためのメインパーツ
※アフィリエイトリンクを含みます
前提知識:
- 自作PCのパーツ交換ができる程度のハードウェア知識
- コマンドプロンプト(PowerShell)の基本操作
必要なもの:
- NVIDIA Tesla P40(中古で2.5万〜3.5万円程度)
- 冷却用のアクティブファンおよび専用ダクト(3Dプリント品や市販のアダプタ)
- EPS 8ピン to PCIe 8ピン 電源変換ケーブル
- 400W以上の余裕がある電源ユニット(P40のTDPは250W)
先に確認するスペック・料金
ローカルLLMを動かす際、最大のボトルネックはGPUのメモリ容量(VRAM)です。 RTX 3060 12GBではLlama 3の8Bモデルが限界ですが、70Bモデルを実用的な速度で動かすには24GB以上のVRAMが欲しくなります。 現行のRTX 4090は25万円を超えますが、2016年発売のデータセンター向け「Tesla P40」なら、中古市場で4万円を切る価格で24GBという広大なVRAMが手に入ります。
ただし、安いのには理由があります。 P40には「冷却ファンがない」「映像出力端子がない」「電源ピンの配列が通常のグラボと異なる」という3つの大きな壁があります。 これらを解決するために追加で数千円のパーツ購入と、Windows上でのレジストリ操作が必要です。 最新のAda Lovelace世代(RTX 40シリーズ)に比べると推論速度は劣りますが、1トークンあたりのコストパフォーマンスは今でも最強クラスです。
なぜこの方法を選ぶのか
VRAMを増やす手段として、Apple Silicon(Mac Studio等)を買う、あるいはRTX 4060 Ti 16GBを2枚挿しにする方法もあります。 しかし、Macは非常に高価ですし、GeForceの2枚挿しはレーン数の制限や電源容量で詰まることが多いです。 Tesla P40は、Pascal世代という古さはあるものの、CUDAコア数が3840基と多く、FP32の演算性能はRTX 2080 Tiに匹敵します。
特にRAG(検索拡張生成)の検証や、大規模なコンテキストを読み込ませる作業では、速度よりも「モデルがメモリに乗るかどうか」が死活問題になります。 「まずは安く、大規模モデルを自分のマシンで回したい」というエンジニアにとって、P40の導入は最も賢い「裏道」といえます。
Step 1: 物理環境を整える
まずはハードウェアの準備です。Tesla P40はサーバーラックの強力なエアフローを前提としているため、そのままPCケースに入れても1分で熱暴走します。
# 必要な物理パーツの確認リスト
1. NVIDIA Tesla P40 本体
2. 40mm角または50mm角の高静圧ファン
3. P40専用の冷却ダクト(Amazonやメルカリで「Tesla P40 Fan Duct」と検索)
4. CPU用8ピン(EPS)からビデオカード用8ピン(PCIe)への変換ケーブル
⚠️ 落とし穴: P40の電源端子は、通常のグラフィックボードと同じ8ピンに見えますが、ピンアサインが「CPU用(EPS)」と同じです。 一般的な電源ユニットから出ているビデオカード用の8ピン(PCIe)を直接挿すと、最悪の場合ショートして発火します。 必ず「EPS to PCIe 変換ケーブル」あるいは「Dual PCIe to EPS 変換」を使用してください。
物理的な設置ができたら、ファンを全開で回すように接続します。 サーバー用GPUは温度センサーが厳しく、80度を超えると急激にクロックが落とされるため、冷却には妥協しないでください。
Step 2: ドライバのインストールとTCC/WDDMの切り替え
P40をPCに認識させたら、Windowsを起動します。 この時点では「基本ディスプレイアダプター」として認識されるか、エラーが出ているはずです。
まず、NVIDIAの公式サイトから「Data Center / Tesla」用のドライバをダウンロードしてインストールします。 インストール後、標準では「TCCモード(計算専用モード)」になっていますが、WindowsでGeForceと共存させるには設定が必要です。
# 管理者権限でPowerShellを開き、nvidia-smiで現在の状態を確認
nvidia-smi -L
ここでP40が表示されていることを確認します。次に、P40のモードを切り替えます。
# P40のGPU IDを確認し、WDDMモードに変更(IDが1の場合)
nvidia-smi -g 1 -dm 0
なぜこの設定にするのかというと、TCCモードのままだと一部のWindowsアプリケーションからGPUが見えないことがあるからです。 WDDM(Windows Display Driver Model)に変更することで、Windowsのシステムリソースとして正しく管理されるようになります。
Step 3: レジストリ編集で「計算用」として有効化する
P40には映像出力がないため、Windowsはこれを「無効なディスプレイアダプター」とみなして隠してしまうことがあります。 これを強制的に「計算用リソース」として認識させるために、レジストリを操作します。
regeditを起動。HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Class\{4d36e968-e325-11ce-bfc1-08002be10318}を開く。0000,0001といったサブキーの中から、DriverDescが「NVIDIA Tesla P40」となっているものを探す。- そのキーの中に
AdapterType(DWORD値)を作成し、値を1に設定する。 - 同様に
EnableMsHybrid(DWORD値)を作成し、値を1に設定する。
この設定は、映像出力をメインのGeForce(または内蔵GPU)に任せつつ、P40をレンダリングや計算の補助として参加させるための「MS Hybrid」機能を有効にするものです。 設定後、PCを再起動してください。
期待される出力
タスクマネージャーの「パフォーマンス」タブに、新しいGPU(Tesla P40)が現れ、VRAMが24GBと表示されていれば成功です。
Step 4: 実用レベルにする(Ollamaでの動作確認)
環境が整ったら、実際にローカルLLMを動かしてみましょう。 今回は最も手軽な「Ollama」を使います。
# Ollamaのインストール後、Llama 3 8Bでテスト
ollama run llama3
ここで重要なのは、複数のGPUがある場合にP40が使われているかどうかを確認することです。 別のターミナルを開き、以下のコマンドを打ち込んでください。
# 1秒ごとにGPUの使用状況を監視
nvidia-smi -l 1
P40の Volatile GPU-Util が上昇し、Memory-Usage が増えていれば、24GBの広大なメモリ空間が正しく使われています。
次に、本命のLlama 3 70Bを試します。
# 70Bモデルの4bit量子化版をロード
ollama run llama3:70b
RTX 3060などの12GBカードではスワップが発生して1トークン/秒も出ませんが、P40なら4〜6トークン/秒程度で動くはずです。 読書スピードよりは遅いですが、バックグラウンドで長文の要約や翻訳をさせる実務用途であれば、十分に実用的な速度です。
よくあるトラブルと解決法
| エラー内容 | 原因 | 解決策 |
|---|---|---|
| nvidia-smiで認識されない | 電源不足またはBIOS設定 | BIOSで「Above 4G Decoding」を有効にする |
| 動作中にPCが落ちる | 電源変換ケーブルの熱溶解 | 安価な変換ケーブルを避け、18AWG以上の太い電線を使用したものに変える |
| 速度が異常に遅い | サーマルスロットリング | ファンの回転数を上げるか、ダクトの密閉性を確認する |
次のステップ
無事にP40が動き出したら、次は「複数枚挿し」を検討してみてください。 Tesla P40は中古であれば2枚買っても7万円程度です。 2枚挿せばVRAMは48GBになり、Llama 3 70Bをより精度の高い(量子化ビット数の多い)状態で動かしたり、複数のエージェントを同時に立ち上げたりすることが可能になります。
また、DifyやLangChainを使って、このローカル環境をAPIサーバー化するのも面白いでしょう。 外部の有料APIを使わずに、プライベートなデータを24GBのメモリを活かして高速にRAGで処理する。 これこそが、自作AIサーバーを構築する最大の醍醐味です。
よくある質問
Q1: 古いPascal世代ですが、最新のライブラリは動きますか?
CUDA 12系まで対応しているため、PyTorchやTensorFlowの最新版も動作します。ただし、Flash Attention 2など、Ampere世代以降(RTX 30シリーズ以降)を必須とする一部の高速化技術は使えません。
Q2: ゲーム性能は向上しますか?
期待しないでください。映像出力がないため、メインGPUからレンダリング結果を転送するオーバーヘッドが発生します。あくまで「AI計算専用」として割り切るのが、このカードを最も輝かせる方法です。
Q3: 電気代が心配です。
アイドル時は意外と低く10W程度ですが、推論時は250W近く消費します。実務で24時間回す場合は、電力制限(nvidia-smi -pl [ワット数])をかけて、効率の良いポイントを探るのがおすすめです。






