
llama.cppでVRAM消費を抑えて長文推論を動かす方法
所要時間: 約45分 | 難易度: ★★★★☆ この記事で作るもの llama.cppの最新最適化(Flash Attentionのf16マスク適用)を取り入れ、従来よりも少ないVRAMで10k以上の長文コンテキストを処理できる推論環境を構築します。 具体的には、GitHubから最新のソースコードをビルドし、特定のコンパイルフラグを用いてFlash Attentionを有効化した上で、Pythonから制御するスクリプトを完成させます。 Pythonの基本操作とターミナルでのコマンド入力ができることを前提としています。 ...