RTX 5090とvLLMでQwen3.6-27Bを爆速動作させる方法

Sun, 26 Apr 2026 00:00:00 +0900

所要時間: 約40分 | 難易度: ★★★★☆

この記事で作るもの

25万トークンを超える超長文コンテキストを維持しながら、秒間100トークンという驚異的な速度で回答を生成するQwen3.6-27Bの推論サーバーを構築します。具体的には、vLLM v0.19（以降）とINT4量子化モデルを組み合わせ、単一のハイエンドGPUで大規模なドキュメント解析が可能な環境をローカルに作成します。

VLLM 使い方 on Negi AI Lab

RTX 5090とvLLMでQwen3.6-27Bを爆速動作させる方法

この記事で作るもの