所要時間: 約60分(パーツが揃っている場合) | 難易度: ★★★★☆

この記事で作るもの

  • NVIDIA Tesla P40をWindows環境に導入し、VRAM 24GBをフル活用してLlama 3(70B量子化版)をローカルで動かす環境
  • 映像出力のない計算専用GPUを、メインのGeForceと共存させて計算リソースとして認識させる設定
  • データセンター用GPUの「冷却問題」と「電源問題」を解決する物理的なセットアップ

📦 この記事に関連する商品(楽天メインで価格確認)

NVIDIA Tesla P40

24GBのVRAMを格安で確保するためのメインパーツ

楽天で価格を見る Amazonでも確認

※アフィリエイトリンクを含みます

前提知識:

  • 自作PCのパーツ交換ができる程度のハードウェア知識
  • コマンドプロンプト(PowerShell)の基本操作

必要なもの:

  • NVIDIA Tesla P40(中古で2.5万〜3.5万円程度)
  • 冷却用のアクティブファンおよび専用ダクト(3Dプリント品や市販のアダプタ)
  • EPS 8ピン to PCIe 8ピン 電源変換ケーブル
  • 400W以上の余裕がある電源ユニット(P40のTDPは250W)

先に確認するスペック・料金

ローカルLLMを動かす際、最大のボトルネックはGPUのメモリ容量(VRAM)です。 RTX 3060 12GBではLlama 3の8Bモデルが限界ですが、70Bモデルを実用的な速度で動かすには24GB以上のVRAMが欲しくなります。 現行のRTX 4090は25万円を超えますが、2016年発売のデータセンター向け「Tesla P40」なら、中古市場で4万円を切る価格で24GBという広大なVRAMが手に入ります。

ただし、安いのには理由があります。 P40には「冷却ファンがない」「映像出力端子がない」「電源ピンの配列が通常のグラボと異なる」という3つの大きな壁があります。 これらを解決するために追加で数千円のパーツ購入と、Windows上でのレジストリ操作が必要です。 最新のAda Lovelace世代(RTX 40シリーズ)に比べると推論速度は劣りますが、1トークンあたりのコストパフォーマンスは今でも最強クラスです。

なぜこの方法を選ぶのか

VRAMを増やす手段として、Apple Silicon(Mac Studio等)を買う、あるいはRTX 4060 Ti 16GBを2枚挿しにする方法もあります。 しかし、Macは非常に高価ですし、GeForceの2枚挿しはレーン数の制限や電源容量で詰まることが多いです。 Tesla P40は、Pascal世代という古さはあるものの、CUDAコア数が3840基と多く、FP32の演算性能はRTX 2080 Tiに匹敵します。

特にRAG(検索拡張生成)の検証や、大規模なコンテキストを読み込ませる作業では、速度よりも「モデルがメモリに乗るかどうか」が死活問題になります。 「まずは安く、大規模モデルを自分のマシンで回したい」というエンジニアにとって、P40の導入は最も賢い「裏道」といえます。

Step 1: 物理環境を整える

まずはハードウェアの準備です。Tesla P40はサーバーラックの強力なエアフローを前提としているため、そのままPCケースに入れても1分で熱暴走します。

# 必要な物理パーツの確認リスト
1. NVIDIA Tesla P40 本体
2. 40mm角または50mm角の高静圧ファン
3. P40専用の冷却ダクト(Amazonやメルカリで「Tesla P40 Fan Duct」と検索)
4. CPU用8ピン(EPS)からビデオカード用8ピン(PCIe)への変換ケーブル

⚠️ 落とし穴: P40の電源端子は、通常のグラフィックボードと同じ8ピンに見えますが、ピンアサインが「CPU用(EPS)」と同じです。 一般的な電源ユニットから出ているビデオカード用の8ピン(PCIe)を直接挿すと、最悪の場合ショートして発火します。 必ず「EPS to PCIe 変換ケーブル」あるいは「Dual PCIe to EPS 変換」を使用してください。

物理的な設置ができたら、ファンを全開で回すように接続します。 サーバー用GPUは温度センサーが厳しく、80度を超えると急激にクロックが落とされるため、冷却には妥協しないでください。

Step 2: ドライバのインストールとTCC/WDDMの切り替え

P40をPCに認識させたら、Windowsを起動します。 この時点では「基本ディスプレイアダプター」として認識されるか、エラーが出ているはずです。

まず、NVIDIAの公式サイトから「Data Center / Tesla」用のドライバをダウンロードしてインストールします。 インストール後、標準では「TCCモード(計算専用モード)」になっていますが、WindowsでGeForceと共存させるには設定が必要です。

# 管理者権限でPowerShellを開き、nvidia-smiで現在の状態を確認
nvidia-smi -L

ここでP40が表示されていることを確認します。次に、P40のモードを切り替えます。

# P40のGPU IDを確認し、WDDMモードに変更(IDが1の場合)
nvidia-smi -g 1 -dm 0

なぜこの設定にするのかというと、TCCモードのままだと一部のWindowsアプリケーションからGPUが見えないことがあるからです。 WDDM(Windows Display Driver Model)に変更することで、Windowsのシステムリソースとして正しく管理されるようになります。

Step 3: レジストリ編集で「計算用」として有効化する

P40には映像出力がないため、Windowsはこれを「無効なディスプレイアダプター」とみなして隠してしまうことがあります。 これを強制的に「計算用リソース」として認識させるために、レジストリを操作します。

  1. regeditを起動。
  2. HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Class\{4d36e968-e325-11ce-bfc1-08002be10318} を開く。
  3. 0000, 0001 といったサブキーの中から、DriverDescが「NVIDIA Tesla P40」となっているものを探す。
  4. そのキーの中に AdapterType(DWORD値)を作成し、値を 1 に設定する。
  5. 同様に EnableMsHybrid(DWORD値)を作成し、値を 1 に設定する。

この設定は、映像出力をメインのGeForce(または内蔵GPU)に任せつつ、P40をレンダリングや計算の補助として参加させるための「MS Hybrid」機能を有効にするものです。 設定後、PCを再起動してください。

期待される出力

タスクマネージャーの「パフォーマンス」タブに、新しいGPU(Tesla P40)が現れ、VRAMが24GBと表示されていれば成功です。

Step 4: 実用レベルにする(Ollamaでの動作確認)

環境が整ったら、実際にローカルLLMを動かしてみましょう。 今回は最も手軽な「Ollama」を使います。

# Ollamaのインストール後、Llama 3 8Bでテスト
ollama run llama3

ここで重要なのは、複数のGPUがある場合にP40が使われているかどうかを確認することです。 別のターミナルを開き、以下のコマンドを打ち込んでください。

# 1秒ごとにGPUの使用状況を監視
nvidia-smi -l 1

P40の Volatile GPU-Util が上昇し、Memory-Usage が増えていれば、24GBの広大なメモリ空間が正しく使われています。 次に、本命のLlama 3 70Bを試します。

# 70Bモデルの4bit量子化版をロード
ollama run llama3:70b

RTX 3060などの12GBカードではスワップが発生して1トークン/秒も出ませんが、P40なら4〜6トークン/秒程度で動くはずです。 読書スピードよりは遅いですが、バックグラウンドで長文の要約や翻訳をさせる実務用途であれば、十分に実用的な速度です。

よくあるトラブルと解決法

エラー内容原因解決策
nvidia-smiで認識されない電源不足またはBIOS設定BIOSで「Above 4G Decoding」を有効にする
動作中にPCが落ちる電源変換ケーブルの熱溶解安価な変換ケーブルを避け、18AWG以上の太い電線を使用したものに変える
速度が異常に遅いサーマルスロットリングファンの回転数を上げるか、ダクトの密閉性を確認する

次のステップ

無事にP40が動き出したら、次は「複数枚挿し」を検討してみてください。 Tesla P40は中古であれば2枚買っても7万円程度です。 2枚挿せばVRAMは48GBになり、Llama 3 70Bをより精度の高い(量子化ビット数の多い)状態で動かしたり、複数のエージェントを同時に立ち上げたりすることが可能になります。

また、DifyやLangChainを使って、このローカル環境をAPIサーバー化するのも面白いでしょう。 外部の有料APIを使わずに、プライベートなデータを24GBのメモリを活かして高速にRAGで処理する。 これこそが、自作AIサーバーを構築する最大の醍醐味です。

よくある質問

Q1: 古いPascal世代ですが、最新のライブラリは動きますか?

CUDA 12系まで対応しているため、PyTorchやTensorFlowの最新版も動作します。ただし、Flash Attention 2など、Ampere世代以降(RTX 30シリーズ以降)を必須とする一部の高速化技術は使えません。

Q2: ゲーム性能は向上しますか?

期待しないでください。映像出力がないため、メインGPUからレンダリング結果を転送するオーバーヘッドが発生します。あくまで「AI計算専用」として割り切るのが、このカードを最も輝かせる方法です。

Q3: 電気代が心配です。

アイドル時は意外と低く10W程度ですが、推論時は250W近く消費します。実務で24時間回す場合は、電力制限(nvidia-smi -pl [ワット数])をかけて、効率の良いポイントを探るのがおすすめです。


あわせて読みたい