
llama-cpp-pythonで自分だけのLLM推論ベンチマークを計測する方法
所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの 自分のPC上でローカルLLMの推論速度(Tokens Per Second)と応答遅延(TTFT)を正確に計測するPythonスクリプト 特定のモデル(Llama 3やQwen 2など)が自分の業務で使い物になるかを「数字」で判断する基準 前提知識:Pythonの基本的な構文(変数、関数)がわかり、ターミナルでコマンド操作ができること 必要なもの:NVIDIA製GPU(VRAM 8GB以上推奨)またはApple Silicon搭載Mac、Python 3.10以降 📦 この記事に関連する商品(楽天メインで価格確認) ...