Llama.cpp 使い方

llama-swap 使い方：Ollama超えのローカルLLM切り替え環境を構築

所要時間: 約30分 | 難易度: ★★★☆☆ この記事で作るもの llama-swapを介して、複数のローカルLLM（Llama 3やMistralなど）をAPI経由で瞬時に切り替えて呼び出すPython実行環境 OllamaやLM Studioに依存せず、llama.cppやvLLMなどの高性能バックエンドを自由に選べる柔軟な推論サーバー PythonのOpenAI SDKを利用し、コード側で「model=“llama-3”」と指定するだけでバックエンドが自動でモデルをロード・スワップする仕組み 📦 この記事に関連する商品 ...

Qwen3.5-35BをVRAM 16GBで爆速動作させるローカルLLM構築術

所要時間: 約45分 | 難易度: ★★★☆☆ この記事で作るもの RTX 3060/4060 Ti 16GBやRTX 5080（16GB）環境で、Qwen3.5-35B-A3Bを秒間70トークン以上の超高速で動作させるローカルAPIサーバー Pythonの基礎（venv環境構築、pip操作）ができること 16GB以上のVRAMを搭載したNVIDIA製GPU（12GBでも量子化次第で動作可能） 📦 この記事に関連する商品 ...

自分のPCで「どのサイズのLLMを動かすべきか」という悩みは、ローカルLLM界隈では永遠のテーマです。特に最近注目されている9B（90億パラメータ）と35B（350億パラメータ）のモデルは、それぞれ実用性と性能のバランスが絶妙で、どちらをメインに据えるかで構築プランが大きく変わります。

この記事では、9Bモデルと35Bモデルの性能差を理解した上で、あなたのハードウェア環境に合わせた最適なローカルLLM実行環境を構築する方法を解説します。この記事で学べること 9Bモデルと35Bモデルの決定的な違いと、ハードウェア要件の計算方法 llama.cppを使用した、GPUメモリを最大限活用する実行環境の構築手順量子化（Quantization）を使いこなし、限られたVRAMで35Bモデルを動かす設定推論速度と精度のバランスを最適化するパラメータチューニング前提条件 OS: Linux (Ubuntu推奨) または Windows (WSL2 + NVIDIA Container Toolkit) GPU: NVIDIA製GPU（VRAM 8GB以上推奨）ツール: llama.cpp または Ollama（この記事では詳細設定が可能なllama.cppを使用） Python 3.10以上なぜこの知識が重要なのか私がSIerでエンジニアをしていた頃、システムのサイジングは最も神経を使う作業の一つでした。ローカルLLMも同じで、闇雲に巨大なモデルを動かそうとしても、スワップが発生して「1文字出すのに数秒かかる」といった使い物にならない状態に陥ります。 ...