AI generated thumbnail

vLLMとMCPサーバーの脆弱性対策!Dockerで安全なAI実行環境を構築する方法

所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの vLLMやMCPサーバーを外部攻撃から守るために、Dockerコンテナ内でネットワークと権限を完全に隔離した「セキュアAI推論・実行環境」を構築します。 この記事では、単にツールをインストールするだけでなく、万が一脆弱性を突かれてもホストOSや個人データにアクセスさせないための多層防御設定を組み込んだ環境を完成させます。 ...

2026年5月28日 · 8 分 · 3703 文字 · Negi AI Lab
AI generated thumbnail

Qwen2.5 27Bを爆速化 vLLMでスループットを極限まで高めるやり方

所要時間: 約45分 | 難易度: ★★★★☆ この記事で作るもの vLLM(推論最適化エンジン)を用いて、Qwen2.5 27BをGPUの限界まで回す推論環境 数十から数百のリクエストを並列処理し、スループット(tps)を最大化するPythonスクリプト 自身の環境で「秒間何トークン出ているか」を正確に測定するベンチマークコード 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月25日 · 9 分 · 4444 文字 · Negi AI Lab
AI generated thumbnail

AMD MI50でQwen 2.5 27Bを爆速化してローカルLLMサーバーを構築する方法

所要時間: 約60分 | 難易度: ★★★★☆ この記事で作るもの 中古で3〜4万円台で投げ売りされているAMD MI50(32GB)を使い、Qwen 2.5 27Bを秒間50トークン超えで動かす推論サーバーを構築します。 PythonからOpenAI互換APIとして呼び出し、RAGやエージェントとして実務投入できる状態を目指します。 動作環境はUbuntu 22.04、推論エンジンにはAMD ROCmに最適化されたvLLMを使用します。 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月14日 · 8 分 · 3608 文字 · Negi AI Lab
AI generated thumbnail

RayとvLLMで個人でも構築可能なマルチノードLLM推論クラスターを作る方法

所要時間: 約60分 | 難易度: ★★★★☆ この記事で作るもの 2台以上のPC(GPU搭載)をネットワーク経由で束ね、Llama 3 70Bなどの巨大モデルを高速推論する分散環境を構築します。 PythonとRay、そしてvLLMを組み合わせた、実務レベルの分散推論スクリプト。 複数枚のGPUを1つの仮想的な巨大GPUとして扱うためのネットワーク設定とランタイム。 📦 この記事に関連する商品 ...

2026年5月1日 · 8 分 · 3864 文字 · Negi AI Lab
AI generated thumbnail

RTX 5090とvLLMでQwen3.6-27Bを爆速動作させる方法

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの 25万トークンを超える超長文コンテキストを維持しながら、秒間100トークンという驚異的な速度で回答を生成するQwen3.6-27Bの推論サーバーを構築します。 具体的には、vLLM v0.19(以降)とINT4量子化モデルを組み合わせ、単一のハイエンドGPUで大規模なドキュメント解析が可能な環境をローカルに作成します。 ...

2026年4月26日 · 9 分 · 4383 文字 · Negi AI Lab