AI generated thumbnail

Llama.cppで最新ローカルLLMを即座にAPI化して検証する方法

所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの Llama.cppをサーバーモードで起動し、どんな新モデルでも5分以内にOpenAI互換APIとして公開する検証基盤を作ります。 前提知識: Linuxの基本コマンド操作、Pythonの基礎(venvの利用など)ができること。 必要なもの: NVIDIA製GPU(VRAM 8GB以上推奨)、Ubuntu等のLinux環境(WSL2可)。 📦 この記事に関連する商品 ...

2026年4月21日 · 8 分 · 3859 文字 · Negi AI Lab
AI generated thumbnail

llama.cpp高速化!Speculative Checkpointing設定ガイド

所要時間: 約30分 | 難易度: ★★★☆☆ この記事で作るもの 推測的実行(Speculative Checkpointing)を有効にしたllama.cppの構築 コーディングタスクで推論速度を最大1.5倍に引き上げるPython連携スクリプト VRAMを節約しながらレスポンスを高速化する最適なパラメータ設定の適用 📦 この記事に関連する商品 ...

2026年4月20日 · 7 分 · 3490 文字 · Negi AI Lab
AI generated thumbnail

RTX 5070 TiでQwen3.6-35B-A3Bを秒間79トークンで動かすllama.cpp最適化ガイド

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの RTX 5070 TiとRyzen 9800X3Dを組み合わせ、Qwen3.6-35B-A3Bを秒間79トークン(79 t/s)という実用速度で推論させるローカル環境 llama.cppのMoE専用フラグ(–n-cpu-moe)を活用した、VRAM容量の限界を超えるメモリ最適化設定 128Kコンテキストを維持しつつ、実務で耐えうるレスポンス速度を出す実行スクリプト 📦 この記事に関連する商品 ...

2026年4月19日 · 7 分 · 3486 文字 · Negi AI Lab
AI generated thumbnail

低スペックPCでLLMを動かす llama.cpp 構築ガイド

所要時間: 約45分 | 難易度: ★★★☆☆ この記事で作るもの メモリ(RAM)が1GB以下の旧型PCやシングルボードコンピュータでも動作する、超軽量なローカルLLM環境を構築します。 前提知識:Linux(Ubuntu/Debian系)またはmacOSのターミナル操作ができること。 必要なもの:インターネット環境、空き容量5GB程度のストレージ。 📦 この記事に関連する商品 ...

2026年4月6日 · 8 分 · 3777 文字 · Negi AI Lab
AI generated thumbnail

llama-swap 使い方:Ollama超えのローカルLLM切り替え環境を構築

所要時間: 約30分 | 難易度: ★★★☆☆ この記事で作るもの llama-swapを介して、複数のローカルLLM(Llama 3やMistralなど)をAPI経由で瞬時に切り替えて呼び出すPython実行環境 OllamaやLM Studioに依存せず、llama.cppやvLLMなどの高性能バックエンドを自由に選べる柔軟な推論サーバー PythonのOpenAI SDKを利用し、コード側で「model=“llama-3”」と指定するだけでバックエンドが自動でモデルをロード・スワップする仕組み 📦 この記事に関連する商品 ...

2026年3月6日 · 9 分 · 4226 文字 · Negi AI Lab
AI generated thumbnail

Qwen3.5-35BをVRAM 16GBで爆速動作させるローカルLLM構築術

所要時間: 約45分 | 難易度: ★★★☆☆ この記事で作るもの RTX 3060/4060 Ti 16GBやRTX 5080(16GB)環境で、Qwen3.5-35B-A3Bを秒間70トークン以上の超高速で動作させるローカルAPIサーバー Pythonの基礎(venv環境構築、pip操作)ができること 16GB以上のVRAMを搭載したNVIDIA製GPU(12GBでも量子化次第で動作可能) 📦 この記事に関連する商品 ...

2026年2月27日 · 7 分 · 3360 文字 · Negi AI Lab
AI generated thumbnail

自分のPCで「どのサイズのLLMを動かすべきか」という悩みは、ローカルLLM界隈では永遠のテーマです。特に最近注目されている9B(90億パラメータ)と35B(350億パラメータ)のモデルは、それぞれ実用性と性能のバランスが絶妙で、どちらをメインに据えるかで構築プランが大きく変わります。

この記事では、9Bモデルと35Bモデルの性能差を理解した上で、あなたのハードウェア環境に合わせた最適なローカルLLM実行環境を構築する方法を解説します。 この記事で学べること 9Bモデルと35Bモデルの決定的な違いと、ハードウェア要件の計算方法 llama.cppを使用した、GPUメモリを最大限活用する実行環境の構築手順 量子化(Quantization)を使いこなし、限られたVRAMで35Bモデルを動かす設定 推論速度と精度のバランスを最適化するパラメータチューニング 前提条件 OS: Linux (Ubuntu推奨) または Windows (WSL2 + NVIDIA Container Toolkit) GPU: NVIDIA製GPU(VRAM 8GB以上推奨) ツール: llama.cpp または Ollama(この記事では詳細設定が可能なllama.cppを使用) Python 3.10以上 なぜこの知識が重要なのか 私がSIerでエンジニアをしていた頃、システムのサイジングは最も神経を使う作業の一つでした。ローカルLLMも同じで、闇雲に巨大なモデルを動かそうとしても、スワップが発生して「1文字出すのに数秒かかる」といった使い物にならない状態に陥ります。 ...

2026年2月22日 · 7 分 · 3179 文字 · Negi AI Lab