AI generated thumbnail

AMD MI50でQwen 2.5 27Bを爆速化してローカルLLMサーバーを構築する方法

所要時間: 約60分 | 難易度: ★★★★☆ この記事で作るもの 中古で3〜4万円台で投げ売りされているAMD MI50(32GB)を使い、Qwen 2.5 27Bを秒間50トークン超えで動かす推論サーバーを構築します。 PythonからOpenAI互換APIとして呼び出し、RAGやエージェントとして実務投入できる状態を目指します。 動作環境はUbuntu 22.04、推論エンジンにはAMD ROCmに最適化されたvLLMを使用します。 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月14日 · 8 分 · 3608 文字 · Negi AI Lab
AI generated thumbnail

Qwen2.5を2倍速くするMTP導入ガイド llama.cppでの設定方法

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの Qwen2.5-Coder-32Bなどの強力なローカルLLMに対し、Multi-Token Prediction(MTP)を適用して推論速度を劇的に向上させた環境を構築します。 具体的には、llama.cppの最新機能を活用し、MTPアダプターを読み込ませることで、従来の1トークンずつの生成ではなく、一度に複数のトークンを予測・出力する爆速のチャット・コード生成環境を手に入れます。 ...

2026年5月14日 · 9 分 · 4177 文字 · Negi AI Lab
AI generated thumbnail

Needle 使い方 入門|26Mの超軽量モデルで爆速ツール呼び出しを実現する方法

所要時間: 約20分 | 難易度: ★★☆☆☆ この記事で作るもの 26M(2600万)という驚異的な小ささのモデル「Needle」を使い、ユーザーの入力から「どのツールを、どの引数で使うべきか」を瞬時に判断するPythonスクリプトを作成します。 Gemini 1.5 Proのツール呼び出し能力を蒸留したこのモデルを、ローカル環境で爆速(1200 tok/s以上)で動かす体験を提供します。 ...

2026年5月13日 · 9 分 · 4094 文字 · Negi AI Lab
AI generated thumbnail

ゲームボーイカラーでTransformer自作!GBDK-2020とC言語による超小型LLM実装入門

所要時間: 約60分 | 難易度: ★★★★☆ この記事で作るもの 1998年発売のハードウェア「ゲームボーイカラー(GBC)」上で、本物のTransformerモデルを動作させるROMファイル Pythonで学習させたモデルの重みをC言語のヘッダファイルに変換し、実機で推論させる一連のワークフロー 前提知識: C言語の基礎(ポインタと配列)、Python環境でのスクリプト実行、コマンドライン操作 必要なもの: PC(Windows/Mac/Linux)、GBDK-2020(コンパイラ)、ゲームボーイエミュレータ(BGBやSameBoy) 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月13日 · 8 分 · 3654 文字 · Negi AI Lab
AI generated thumbnail

Qwen2.5-122Bクラスの巨大なローカルLLMを、サーマルスロットリング(熱による速度低下)を起こさずに安定稼働させるための推論環境を構築します。

この記事の手順を完了すると、GPU温度を監視しながら最適なパフォーマンスで巨大モデルを回し続ける「温度管理機能付き推論サーバー」が手に入ります。 Redditで話題になった「DGXを水道水で冷やす」という極端な事例をヒントに、実務で100GB超のモデルを扱う際の現実的な冷却戦略と設定を解説します。 ...

2026年5月12日 · 8 分 · 3736 文字 · Negi AI Lab
AI generated thumbnail

UnslothのMTP対応モデルでローカルLLMの推論速度を2倍にする方法

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの Unslothが公開したMTP(Multi-Token Prediction)対応のGGUFモデルを使い、従来の1.5倍から2倍の速度でテキスト生成を行うローカル推論環境を構築します。 実行には、llama.cppの最新ビルドと、Pythonによる制御スクリプトを使用します。 前提知識として、基本的なLinuxコマンド操作とPython環境(VenvやConda)の構築ができることを想定しています。 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月12日 · 8 分 · 4000 文字 · Negi AI Lab
AI generated thumbnail

Qwen 3.6 35B A3B 使い方 | ローカルLLMでプロ級のコード解析環境を作る方法

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの ローカル環境(Ollama)で「Qwen 3.6 35B A3B」を立ち上げ、自作プロジェクトのソースコードを読み込ませて、バグ修正とリファクタリング案を自動生成するPythonスクリプト。 特定のドメイン(学術、金融、製造など)で書かれた「他人が書いた難解なコード」を、文脈を維持したまま数秒で解説させる環境。 必要なもの:Python 3.10以降、VRAM 16GB以上のGPU(推奨24GB以上)、またはメモリ32GB以上のApple Silicon Mac。 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月11日 · 11 分 · 5090 文字 · Negi AI Lab
AI generated thumbnail

ローカルLLMの推論速度を体感するシミュレーター自作ガイド

所要時間: 約20分 | 難易度: ★☆☆☆☆ この記事で作るもの 指定した「tokens/second」の速度でテキストを流し、LLMのレスポンス速度を擬似的に再現するPythonスクリプト Pythonの基礎(標準ライブラリの使用)があれば動作可能 自分のPC環境や検討中のGPUで、どれくらいの「待ち心地」になるかを数値ではなく視覚的に確認できる環境 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月11日 · 9 分 · 4236 文字 · Negi AI Lab
AI generated thumbnail

BeeLlama.cppでQwenを高速化して200kコンテキストを動かす方法

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの RTX 3090/4090クラスのコンシューマーGPU1枚で、Qwen 3.6 27B(および最新のQwen 2.5等)を135 tpsという爆速で推論し、かつ200kトークンの超ロングコンテキストを実用レベルで動かす環境を構築します。 PythonからBeeLlama.cppの高速なAPIを叩き、長大なドキュメントを読み込ませてもレスポンスが破綻しないRAG(検索拡張生成)の代替となる基盤を作ります。 ...

2026年5月10日 · 9 分 · 4151 文字 · Negi AI Lab
AI generated thumbnail

Qwen 35B A3Bを12GB VRAMで高速化!llama.cpp MTP 使い方

所要時間: 約40分 | 難易度: ★★★★☆ この記事で作るもの 12GB VRAMのミドルクラスGPUで、Qwen3.6 35B A3B(MoEモデル)を毎秒80トークン以上の爆速で動作させる環境 128Kの長大なコンテキストを維持しつつ、推論速度を犠牲にしないllama.cppのMTP設定 Pythonからこの高速推論環境を呼び出し、実際の業務で活用するための推論スクリプト 📦 この記事に関連する商品(楽天メインで価格確認) ...

2026年5月10日 · 9 分 · 4293 文字 · Negi AI Lab