AI generated thumbnail

ローカルLLMの推論速度を最大化するGPU環境構築とllama-cpp-python最適化ガイド

所要時間: 約45分 | 難易度: ★★★☆☆ この記事で作るもの 自分のPCスペック(VRAM容量や帯域幅)を自動認識し、最適な量子化モデル(GGUF)をメモリ限界までVRAMにオフロードして高速推論させるPythonスクリプト 前提知識: Pythonの基本的な読み書きができ、ターミナルでコマンド操作ができること 必要なもの: NVIDIA製GPU(VRAM 8GB以上推奨)またはApple Silicon搭載Mac、Python 3.10以降 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月30日 · 9 分 · 4148 文字 · Negi AI Lab
AI generated thumbnail

Local LLMベンチマーク測定のやり方!自機モデルと自分の知能を数値で比較する

所要時間: 約45分 | 難易度: ★★★☆☆ この記事で作るもの 自分のPCで動かしているローカルLLMの性能を、MMLU(大規模多目的言語理解)などの標準的な指標で測定し、さらに自分自身も同じテストを受けて「AIと自分の差」を可視化するベンチマーク・ダッシュボードを作成します。 ...

2026年5月29日 · 8 分 · 3817 文字 · Negi AI Lab
AI generated thumbnail

Qwen2.5-CoderのQ6量子化でコーディングエージェントを自作する方法

所要時間: 約45分 | 難易度: ★★★★☆ この記事で作るもの ローカル環境で動作する、有料API級の精度を持ったコーディングエージェント(Cline連携) Qwen2.5-Coder-32B(Q6_K量子化)を高速に動かすllama.cppサーバー VS Code上で自律的にコードを生成・修正させる自動開発環境 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月28日 · 8 分 · 3588 文字 · Negi AI Lab
AI generated thumbnail

vLLMとMCPサーバーの脆弱性対策!Dockerで安全なAI実行環境を構築する方法

所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの vLLMやMCPサーバーを外部攻撃から守るために、Dockerコンテナ内でネットワークと権限を完全に隔離した「セキュアAI推論・実行環境」を構築します。 この記事では、単にツールをインストールするだけでなく、万が一脆弱性を突かれてもホストOSや個人データにアクセスさせないための多層防御設定を組み込んだ環境を完成させます。 ...

2026年5月28日 · 8 分 · 3703 文字 · Negi AI Lab
AI generated thumbnail

Bonsai Image 4B 使い方!ブラウザとWebGPUで1-bit画像生成を試す

所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの ローカルサーバーを立てず、ブラウザだけで完結する高性能な画像生成Webアプリ 1-bit/Ternary(三値)量子化を適用した40億パラメータのDiffusion Transformer(DiT)の動作環境 Pythonの基礎とHTML/JavaScriptの読み書きができれば、自分のPCで画像生成を完結させられます 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月27日 · 9 分 · 4386 文字 · Negi AI Lab
AI generated thumbnail

Qwen 2.5 32B 使い方|エージェント開発でQ4量子化を避けるべき理由と安定化手順

所要時間: 約45分 | 難易度: ★★★★☆ この記事で作るもの Qwen 2.5 Coder 32Bを使い、量子化による精度低下を抑えつつ、関数の呼び出し(Tool Use)を100回連続で成功させるための安定したエージェント実行環境を構築します。 安定性の高い量子化モデル(GGUF)の選定と導入 PythonとPydanticを用いた「壊れない」構造化出力の実装 VRAM不足を回避しながら精度を維持するオフロード設定 前提知識:Pythonの基本的な文法がわかること、Dockerまたは仮想環境の操作ができること。 必要なもの:VRAM 24GB以上のGPU(RTX 3090 / 4090)またはメモリ32GB以上のMac、OpenAI API互換サーバー(llama.cpp / Ollama)。 ...

2026年5月27日 · 9 分 · 4178 文字 · Negi AI Lab
AI generated thumbnail

Qwen3.5 35B A3B 使い方と環境構築ガイド

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの Qwen3.5 35B A3B(MTP保持版)をローカル環境で立ち上げ、PythonからAPI経由で高速に推論を行うシステム。 35Bという中規模モデルながら、MTP(Multi-Token Prediction)の恩恵で40B〜70Bクラスに匹敵する論理性能を体感できる環境を構築します。 PythonからOpenAI互換APIサーバーとして呼び出し、実際の業務(コードレビューや長文要約)に即投入できる状態を目指します。 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月27日 · 9 分 · 4251 文字 · Negi AI Lab
AI generated thumbnail

ローカルLLMで法務文書を自動解析する環境構築と実践ガイド

所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの Llama 3 70Bをローカル環境で動かし、契約書の「隠れたリスク」を自動抽出するPythonスクリプト 大規模な法務文書を分割せずに処理するためのコンテキスト設定と構造化出力の実装 API経由では不可能な「完全オフライン・機密保持」を前提とした法務AIワークフロー 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月26日 · 10 分 · 4565 文字 · Negi AI Lab
AI generated thumbnail

NVIDIA vs Mac 2026年版ローカルLLM環境構築ガイド

所要時間: 約40分 | 難易度: ★★☆☆☆ この記事で作るもの OllamaとPythonを組み合わせて、ローカル環境で動作する「機密情報漏洩を防ぐためのセキュアな自動議事録要約ツール」 前提知識:Pythonの基本的な読み書きができること、ターミナル(コマンドプロンプト)の操作に抵抗がないこと 必要なもの:NVIDIA製GPU(VRAM 12GB以上推奨)を搭載したPC、またはApple Silicon(メモリ24GB以上推奨)を搭載したMac 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月25日 · 8 分 · 3773 文字 · Negi AI Lab
AI generated thumbnail

Qwen2.5 27Bを爆速化 vLLMでスループットを極限まで高めるやり方

所要時間: 約45分 | 難易度: ★★★★☆ この記事で作るもの vLLM(推論最適化エンジン)を用いて、Qwen2.5 27BをGPUの限界まで回す推論環境 数十から数百のリクエストを並列処理し、スループット(tps)を最大化するPythonスクリプト 自身の環境で「秒間何トークン出ているか」を正確に測定するベンチマークコード 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月25日 · 9 分 · 4444 文字 · Negi AI Lab