Flash Attention 設定

所要時間: 約45分 | 難易度: ★★★★☆ この記事で作るもの llama.cppの最新最適化（Flash Attentionのf16マスク適用）を取り入れ、従来よりも少ないVRAMで10k以上の長文コンテキストを処理できる推論環境を構築します。具体的には、GitHubから最新のソースコードをビルドし、特定のコンパイルフラグを用いてFlash Attentionを有効化した上で、Pythonから制御するスクリプトを完成させます。 Pythonの基本操作とターミナルでのコマンド入力ができることを前提としています。 ...