推論高速化 on Negi AI Lab

推論高速化 on Negi AI Labhttps://ai.negi-lab.com/tags/%E6%8E%A8%E8%AB%96-%E9%AB%98%E9%80%9F%E5%8C%96/Recent content in 推論高速化 on Negi AI LabNegi AI Labhttps://ai.negi-lab.com/images/og-default.pnghttps://ai.negi-lab.com/images/og-default.pngHugo -- 0.154.5jaMon, 25 May 2026 21:32:21 +0900Qwen2.5 27Bを爆速化 vLLMでスループットを極限まで高めるやり方https://ai.negi-lab.com/posts/qwen-27b-vllm-high-throughput-guide/Mon, 25 May 2026 00:00:00 +0900https://ai.negi-lab.com/posts/qwen-27b-vllm-high-throughput-guide/<p><strong>所要時間:</strong> 約45分 | <strong>難易度:</strong> ★★★★☆</p> <h2 id="この記事で作るもの">この記事で作るもの</h2> <ul> <li>vLLM（推論最適化エンジン）を用いて、Qwen2.5 27BをGPUの限界まで回す推論環境</li> <li>数十から数百のリクエストを並列処理し、スループット（tps）を最大化するPythonスクリプト</li> <li>自身の環境で「秒間何トークン出ているか」を正確に測定するベンチマークコード</li> </ul> <div style="border:1px solid #e0e0e0;border-radius:8px;padding:16px;margin:20px 0;background:#fafafa"> <p style="margin:0 0 4px;font-size:13px;color:#888">📦 この記事に関連する商品（楽天メインで価格確認）</p>