AI generated thumbnail

RTX 5070 TiでQwen3.6-35B-A3Bを秒間79トークンで動かすllama.cpp最適化ガイド

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの RTX 5070 TiとRyzen 9800X3Dを組み合わせ、Qwen3.6-35B-A3Bを秒間79トークン(79 t/s)という実用速度で推論させるローカル環境 llama.cppのMoE専用フラグ(–n-cpu-moe)を活用した、VRAM容量の限界を超えるメモリ最適化設定 128Kコンテキストを維持しつつ、実務で耐えうるレスポンス速度を出す実行スクリプト 📦 この記事に関連する商品 ...

2026年4月19日 · 7 分 · 3486 文字 · Negi AI Lab
AI generated thumbnail

Qwen 2.5をローカル環境で爆速化するvLLM最適化設定ガイド

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの Qwen 2.5(7B/72B)をvLLMで動作させ、標準的な推論速度を2倍以上に引き上げるPythonスクリプト VRAM 24GB(RTX 3090/4090)1枚で72Bモデルを高速推論させるための量子化・メモリ管理設定 外部アプリケーションから呼び出し可能な、OpenAI互換の高速APIサーバー 📦 この記事に関連する商品 ...

2026年4月18日 · 8 分 · 3602 文字 · Negi AI Lab
AI generated thumbnail

Qwen 3.6 使い方: ローカルLLMで爆速・高精度な推論環境を構築する手順

所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの Qwen 3.6(72Bモデル想定)をローカル環境で起動し、Pythonから構造化データ(JSON)を抽出する実用スクリプト 前提知識: Pythonの基本的な読み書きができる、コマンドライン操作に抵抗がない 必要なもの: DockerまたはOllamaが動作するPC(推奨: VRAM 24GB以上のGPU)、Python 3.10以上 📦 この記事に関連する商品 ...

2026年4月18日 · 7 分 · 3464 文字 · Negi AI Lab
AI generated thumbnail

OllamaとPythonでローカルLLM環境を構築する手順

所要時間: 約30分 | 難易度: ★★☆☆☆ この記事で作るもの 外部APIを一切使わず、自分のPC内で完結するAI自動推論Pythonスクリプト Llama 3やQwenといった最新のオープンソースモデルをコードから制御する基盤 前提知識: Pythonの基本的な文法(pipインストールや関数の呼び出し)がわかること 必要なもの: Windows/Mac/Linux PC(GPU推奨だがCPUでも動作可能)、メモリ8GB以上 📦 この記事に関連する商品 ...

2026年4月17日 · 7 分 · 3326 文字 · Negi AI Lab
AI generated thumbnail

Ternary Bonsai 使い方:1.58bit量子化LLMをローカルで動かす最短ルート

所要時間: 約30分 | 難易度: ★★★☆☆ この記事で作るもの 極限まで軽量化された1.58ビットLLM「Ternary Bonsai」を、手元のPC(GPU/CPU問わず)で推論させるPythonスクリプト 従来の4ビット量子化(GGUF等)を遥かに凌駕するメモリ節約術の習得 前提知識:Pythonの基本的な操作、pipでのライブラリインストールができること 必要なもの:Python 3.10以上の環境、VRAM 4GB以上のGPU(CPUのみでも動作可能) 📦 この記事に関連する商品 ...

2026年4月17日 · 8 分 · 3953 文字 · Negi AI Lab
AI generated thumbnail

Gemma 2 使い方 Jailbreakプロンプトでモデルの制限を解除する設定ガイド

所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの Googleのオープンモデル「Gemma 2」に対し、特定のシステムプロンプトを適用することで、過剰な安全フィルターによる回答拒否を回避し、モデルの推論能力を100%引き出すPython実行環境を構築します。 ...

2026年4月16日 · 8 分 · 3695 文字 · Negi AI Lab
AI generated thumbnail

Qwen3.6-35B-A3B 使い方 入門:MoEモデルをローカル環境で爆速動作させる方法

所要時間: 約40分 | 難易度: ★★★☆☆ この記事で作るもの この記事では、最新のSparse MoE(混合エキスパート)モデル「Qwen3.6-35B-A3B」をローカルPCに導入し、ソースコードの修正案を自動生成する「AIコーディングレビュー・スクリプト」を作成します。 PythonからLlama-cpp-pythonを経由してモデルを制御し、35Bクラスの知能を3Bクラスの速度で引き出す実装を目指します。 ...

2026年4月16日 · 10 分 · 4772 文字 · Negi AI Lab
AI generated thumbnail

LLM精度低下の対策ガイド Pythonで品質評価と自動切替を実装する

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの LLMの応答品質をリアルタイムでスコアリングし、基準を下回った場合に自動でプロンプトを修正して再試行、あるいは別モデルへフォールバック(切り替え)を行うPythonスクリプトを構築します。 応答の「論理的整合性」と「命令遵守」を自動評価するロジック GPT-4oからClaude 3.5 Sonnet、あるいはローカルLLMへ自動で切り替えるパイプライン プロンプトの「劣化」を検知するためのログ保存機能 前提知識として、Pythonの基本的な文法と、環境変数の設定方法を理解している必要があります。 必要なものは、OpenAIとAnthropicのAPIキー、そしてPython 3.10以上の実行環境です。 ...

2026年4月15日 · 7 分 · 3272 文字 · Negi AI Lab
AI generated thumbnail

Xiaomi 12 Proを24時間稼働のAIサーバーにする手順:Snapdragon 8 Gen 1とOllamaでプライベートLLM環境を構築する方法

所要時間: 約45分 | 難易度: ★★★★☆ この記事で作るもの 古くなったAndroidスマホを、外部からAPI経由で叩ける「24時間稼働のHeadless AIサーバー」に変貌させます。 Pythonからスマホ内のGemma 2やLlama 3に推論リクエストを送り、レスポンスを取得するシステムを構築します。 前提知識:Linuxコマンドの基本操作、Pythonの基礎(HTTPリクエストの扱い)。 必要なもの:Android端末(Snapdragon 8 Gen 1以上推奨)、安定したWi-Fi、冷却ファン(常時稼働用)。 📦 この記事に関連する商品 ...

2026年4月15日 · 7 分 · 3455 文字 · Negi AI Lab
AI generated thumbnail

MiniMax API 使い方 入門 - 高性能モデル M2.5 を Python で動かす方法

所要時間: 約30分 | 難易度: ★★☆☆☆ この記事で作るもの MiniMaxの最新モデル「Abab 6.5s(M2.5等)」をPythonから呼び出し、構造化されたデータを抽出する実用的なスクリプト 前提知識: Pythonの基本的な文法(変数、関数、pip操作)がわかること 必要なもの: MiniMax APIキー、Python 3.10以上の実行環境 📦 この記事に関連する商品 ...

2026年4月14日 · 6 分 · 2973 文字 · Negi AI Lab