AI generated thumbnail

llama-swap 使い方:Ollama超えのローカルLLM切り替え環境を構築

所要時間: 約30分 | 難易度: ★★★☆☆ この記事で作るもの llama-swapを介して、複数のローカルLLM(Llama 3やMistralなど)をAPI経由で瞬時に切り替えて呼び出すPython実行環境 OllamaやLM Studioに依存せず、llama.cppやvLLMなどの高性能バックエンドを自由に選べる柔軟な推論サーバー PythonのOpenAI SDKを利用し、コード側で「model=“llama-3”」と指定するだけでバックエンドが自動でモデルをロード・スワップする仕組み 📦 この記事に関連する商品 ...

2026年3月6日 · 9 分 · 4226 文字 · Negi AI Lab
AI generated thumbnail

Qwen3.5-35BをVRAM 16GBで爆速動作させるローカルLLM構築術

所要時間: 約45分 | 難易度: ★★★☆☆ この記事で作るもの RTX 3060/4060 Ti 16GBやRTX 5080(16GB)環境で、Qwen3.5-35B-A3Bを秒間70トークン以上の超高速で動作させるローカルAPIサーバー Pythonの基礎(venv環境構築、pip操作)ができること 16GB以上のVRAMを搭載したNVIDIA製GPU(12GBでも量子化次第で動作可能) 📦 この記事に関連する商品 ...

2026年2月27日 · 7 分 · 3360 文字 · Negi AI Lab
AI generated thumbnail

自分のPCで「どのサイズのLLMを動かすべきか」という悩みは、ローカルLLM界隈では永遠のテーマです。特に最近注目されている9B(90億パラメータ)と35B(350億パラメータ)のモデルは、それぞれ実用性と性能のバランスが絶妙で、どちらをメインに据えるかで構築プランが大きく変わります。

この記事では、9Bモデルと35Bモデルの性能差を理解した上で、あなたのハードウェア環境に合わせた最適なローカルLLM実行環境を構築する方法を解説します。 この記事で学べること 9Bモデルと35Bモデルの決定的な違いと、ハードウェア要件の計算方法 llama.cppを使用した、GPUメモリを最大限活用する実行環境の構築手順 量子化(Quantization)を使いこなし、限られたVRAMで35Bモデルを動かす設定 推論速度と精度のバランスを最適化するパラメータチューニング 前提条件 OS: Linux (Ubuntu推奨) または Windows (WSL2 + NVIDIA Container Toolkit) GPU: NVIDIA製GPU(VRAM 8GB以上推奨) ツール: llama.cpp または Ollama(この記事では詳細設定が可能なllama.cppを使用) Python 3.10以上 なぜこの知識が重要なのか 私がSIerでエンジニアをしていた頃、システムのサイジングは最も神経を使う作業の一つでした。ローカルLLMも同じで、闇雲に巨大なモデルを動かそうとしても、スワップが発生して「1文字出すのに数秒かかる」といった使い物にならない状態に陥ります。 ...

2026年2月22日 · 7 分 · 3179 文字 · Negi AI Lab