
自分のPCで「どのサイズのLLMを動かすべきか」という悩みは、ローカルLLM界隈では永遠のテーマです。特に最近注目されている9B(90億パラメータ)と35B(350億パラメータ)のモデルは、それぞれ実用性と性能のバランスが絶妙で、どちらをメインに据えるかで構築プランが大きく変わります。
この記事では、9Bモデルと35Bモデルの性能差を理解した上で、あなたのハードウェア環境に合わせた最適なローカルLLM実行環境を構築する方法を解説します。 この記事で学べること 9Bモデルと35Bモデルの決定的な違いと、ハードウェア要件の計算方法 llama.cppを使用した、GPUメモリを最大限活用する実行環境の構築手順 量子化(Quantization)を使いこなし、限られたVRAMで35Bモデルを動かす設定 推論速度と精度のバランスを最適化するパラメータチューニング 前提条件 OS: Linux (Ubuntu推奨) または Windows (WSL2 + NVIDIA Container Toolkit) GPU: NVIDIA製GPU(VRAM 8GB以上推奨) ツール: llama.cpp または Ollama(この記事では詳細設定が可能なllama.cppを使用) Python 3.10以上 なぜこの知識が重要なのか 私がSIerでエンジニアをしていた頃、システムのサイジングは最も神経を使う作業の一つでした。ローカルLLMも同じで、闇雲に巨大なモデルを動かそうとしても、スワップが発生して「1文字出すのに数秒かかる」といった使い物にならない状態に陥ります。 ...