VLLM 使い方

vLLMとMCPサーバーの脆弱性対策！Dockerで安全なAI実行環境を構築する方法

所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの vLLMやMCPサーバーを外部攻撃から守るために、Dockerコンテナ内でネットワークと権限を完全に隔離した「セキュアAI推論・実行環境」を構築します。この記事では、単にツールをインストールするだけでなく、万が一脆弱性を突かれてもホストOSや個人データにアクセスさせないための多層防御設定を組み込んだ環境を完成させます。 ...

Qwen2.5 27Bを爆速化 vLLMでスループットを極限まで高めるやり方

所要時間: 約45分 | 難易度: ★★★★☆ この記事で作るもの vLLM（推論最適化エンジン）を用いて、Qwen2.5 27BをGPUの限界まで回す推論環境数十から数百のリクエストを並列処理し、スループット（tps）を最大化するPythonスクリプト自身の環境で「秒間何トークン出ているか」を正確に測定するベンチマークコード 📦 この記事に関連する商品（楽天メインで価格確認） ...

AMD MI50でQwen 2.5 27Bを爆速化してローカルLLMサーバーを構築する方法

所要時間: 約60分 | 難易度: ★★★★☆ この記事で作るもの中古で3〜4万円台で投げ売りされているAMD MI50（32GB）を使い、Qwen 2.5 27Bを秒間50トークン超えで動かす推論サーバーを構築します。 PythonからOpenAI互換APIとして呼び出し、RAGやエージェントとして実務投入できる状態を目指します。動作環境はUbuntu 22.04、推論エンジンにはAMD ROCmに最適化されたvLLMを使用します。 📦 この記事に関連する商品（楽天メインで価格確認） ...

RayとvLLMで個人でも構築可能なマルチノードLLM推論クラスターを作る方法

所要時間: 約60分 | 難易度: ★★★★☆ この記事で作るもの 2台以上のPC（GPU搭載）をネットワーク経由で束ね、Llama 3 70Bなどの巨大モデルを高速推論する分散環境を構築します。 PythonとRay、そしてvLLMを組み合わせた、実務レベルの分散推論スクリプト。複数枚のGPUを1つの仮想的な巨大GPUとして扱うためのネットワーク設定とランタイム。 📦 この記事に関連する商品 ...

RTX 5090とvLLMでQwen3.6-27Bを爆速動作させる方法

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの 25万トークンを超える超長文コンテキストを維持しながら、秒間100トークンという驚異的な速度で回答を生成するQwen3.6-27Bの推論サーバーを構築します。具体的には、vLLM v0.19（以降）とINT4量子化モデルを組み合わせ、単一のハイエンドGPUで大規模なドキュメント解析が可能な環境をローカルに作成します。 ...