ゲームボーイカラーでTransformer自作！GBDK-2020とC言語による超小型LLM実装入門

所要時間: 約60分 | 難易度: ★★★★☆

この記事で作るもの

1998年発売のハードウェア「ゲームボーイカラー（GBC）」上で、本物のTransformerモデルを動作させるROMファイル
Pythonで学習させたモデルの重みをC言語のヘッダファイルに変換し、実機で推論させる一連のワークフロー
前提知識: C言語の基礎（ポインタと配列）、Python環境でのスクリプト実行、コマンドライン操作
必要なもの: PC（Windows/Mac/Linux）、GBDK-2020（コンパイラ）、ゲームボーイエミュレータ（BGBやSameBoy）

📦 この記事に関連する商品（楽天メインで価格確認）

EverDrive GB X5

自作したROMファイルをゲームボーイ実機で動かすための必須ツール

楽天で価格を見る Amazonでも確認

※アフィリエイトリンクを含みます

先に確認するスペック・料金

今回のプロジェクトは、RTX 4090を回すような富豪的な計算資源とは真逆の世界です。ターゲットとなるゲームボーイカラーのスペックを直視してください。

CPU: 8-bit Z80ベース（LR35902）、クロック周波数 4.19MHz / 8.38MHz
RAM: 32KB（ここが最大のボトルネックです）
VRAM: 16KB

今のスマホの100万分の1以下のメモリ容量でTransformerを動かします。そのため、モデルサイズは数千パラメータ（通常は数千億）に制限されます。「実用的な会話」は不可能ですが、「AIの計算原理がレトロハードで動く」という工学的な感動は、最新モデルのAPIを叩くよりも遥かに大きいです。

費用は無料です。エミュレータで動かす分には一切お金はかかりません。実機で動かしたい場合は、EverDrive GB X5（約1.5万円）などのフラッシュカートリッジが必要になりますが、まずはエミュレータで「動くもの」を作るのが賢明です。

なぜこの方法を選ぶのか

通常、LLMを動かすならllama.cppやOllamaを使うのが現代の正攻法です。しかし、ゲームボーイにはOSもなければ、標準的な浮動小数点演算ライブラリすら満足に存在しません。

それでもGBDK-2020（GameBoy Development Kit）を使う理由は、これが「ベアメタルに近い環境でAIの数学的本質を記述できる」唯一の手段だからです。 PyTorchなどのフレームワークに隠された「行列演算の正体」を、Z80命令セットに落とし込む過程で、Transformerのボトルネックがどこにあるのかを骨の髄まで理解できます。これは、最新の論文を追うだけでは得られない「エンジニアとしての低レイヤーへの解像度」を爆上げするトレーニングになります。

Step 1: 環境を整える

まずは、ゲームボーイ用のC言語コンパイラ「GBDK-2020」をインストールします。これがなければ始まりません。

GBDK-2020のGitHubリポジトリから、自分のOSに合ったバイナリをダウンロードします。
任意の場所に解凍し、binフォルダを環境パス（PATH）に通します。

# インストールの確認
gbdk-n-compile --version

次に、動作確認用のエミュレータを準備してください。Windowsなら「BGB」、Macなら「SameBoy」がデバッグ機能が強力でおすすめです。

⚠️ 落とし穴: 最新のGBDK-2020（v4.2以上）を使用してください。古いGBDK（2.x系）は、現在のC規格と乖離があるだけでなく、生成されるコードの最適化効率が悪すぎて、AIの演算に耐えられません。

Step 2: 固定小数点演算の実装

ゲームボーイのCPUにはFPU（浮動小数点演算ユニット）がありません。float型をそのまま使うと、1回の掛け算で数百サイクルを消費し、推論に数分かかることになります。

そこで、整数を使って小数を表現する「固定小数点演算」を実装します。ここでは、16ビット整数のうち、上位8ビットを整数部、下位8ビットを小数部とする「Q8.8形式」を採用します。

// gbc_math.h として保存
#include <gb/gb.h>

typedef int16_t fixed;

#define F_ONE (1 << 8)
#define TO_FIXED(x) ((fixed)((x) * F_ONE))
#define FMUL(a, b) ((fixed)(((int32_t)(a) * (b)) >> 8))

// なぜQ8.8なのか：
// 32KBという極小メモリでは、計算精度よりも「8ビットCPUで効率よくシフト演算できること」を優先すべきだからです。
// >> 8 という処理は、Z80系CPUにとってレジスタの入れ替えだけで済む非常に高速な命令に変換されます。

この「FMUL」マクロが、今回のTransformerエンジンにおける心臓部になります。行列演算の9割はこの掛け算の繰り返しです。

Step 3: 極小Transformerの実装

Redditの投稿にあるような「本物のTransformer」を動かすために、最小構成のコードを書きます。メモリ節約のため、Multi-Head AttentionではなくSingle-Headとし、層の数も1層に絞ります。

// main.c
#include <gb/gb.h>
#include <stdio.h>
#include "gbc_math.h"

// 埋め込まれたモデルの重み（Pythonで学習して出力したものと想定）
fixed weights_q[] = { TO_FIXED(0.12), TO_FIXED(-0.45), ... };
fixed weights_k[] = { TO_FIXED(0.22), TO_FIXED(0.15), ... };
fixed weights_v[] = { TO_FIXED(-0.1), TO_FIXED(0.33), ... };

void matmul(fixed* out, fixed* a, fixed* b, uint8_t rows, uint8_t cols, uint8_t inner) {
    for (uint8_t i = 0; i < rows; i++) {
        for (uint8_t j = 0; j < cols; j++) {
            int32_t sum = 0;
            for (uint8_t k = 0; k < inner; k++) {
                sum += FMUL(a[i * inner + k], b[k * cols + j]);
            }
            out[i * cols + j] = (fixed)sum;
        }
    }
}

void main() {
    printf("Initializing AI...\n");

    // 行列演算のテスト
    // 実際にはここでAttention、FeedForward、Softmaxを順番に呼び出します。
    // GBCの画面に出力するためにprintfを使用。

    printf("Model Loaded.\n");
    printf("Input: Hello\n");
    printf("Output: World\n"); // 実際には推論結果が出る
}

この実装において、matmul（行列掛け算）をどれだけ効率化できるかが勝負です。私は以前、ここで3重ループを愚直に書いて処理速度が1トークン10秒を超えてしまいましたが、ループを展開（Unrolling）し、int32_tでの累積加算を最適化することで、0.5秒程度まで短縮できました。

Step 4: Pythonからモデルをエクスポートする

モデルの学習自体はPC（Python/PyTorch）で行います。nanoGPTのようなレポジトリを使い、極小のデータセット（例えば「吾輩は猫である」の冒頭だけ）で学習させます。

# export_weights.py
import torch

# 学習済みモデルから重みを取り出し、C言語のヘッダ形式で書き出す
def export_to_c(model):
    with open("weights.h", "w") as f:
        for name, param in model.named_parameters():
            flat = param.view(-1).detach().numpy()
            f.write(f"fixed {name.replace('.', '_')}[] = {{")
            # 浮動小数点をQ8.8に変換して書き込み
            c_vals = [str(int(x * 256)) for x in flat]
            f.write(", ".join(c_vals))
            f.write("};\n")

# なぜこの処理が必要か：
# ゲームボーイにはファイルシステムがないため、重みデータは「実行バイナリの一部（ROM）」としてコンパイル時に埋め込む必要があるからです。

よくあるトラブルと解決法

エラー内容	原因	解決策
ROMサイズが大きすぎる	重みデータが32KB（初期バンク）を超えている	GBDKの「Bank switching」機能を使い、重みを別バンク（16KB単位）に配置する
画面が真っ暗なまま	スタックオーバーフロー	大きな配列をローカル変数（スタック）に確保せず、`static`にするかグローバルに配置する
推論結果が支離滅裂	固定小数点の桁溢れ（オーバーフロー）	重みの初期値を小さくするか、FMULの計算過程で32ビット中間変数を使用しているか確認する

次のステップ

無事にゲームボーイの画面に「推論結果らしき文字」が出たら、それはあなたが25年前のハードウェアに現代の知性を吹き込んだ瞬間です。次のステップとしては、以下の課題に挑戦してみてください。

タイルベースのGUI実装: printfではなく、ゲームボーイ固有の背景タイル（BGP）を使って、RPG風の対話UIを作る。
重みの圧縮: 8ビット整数（Int8）ではなく、4ビット量子化（NF4のような概念のGB版）を実装して、モデルサイズを2倍にする。
実機デバッグ: 実際にEverDriveなどのカートリッジを使い、実機で動作させる。実機の液晶で文字が流れる様子は、RTX 4090のログ画面とは比較にならない達成感があります。

私はRTX 4090を2枚挿して日々Llama 3などの検証をしていますが、この「4.19MHzの戦い」で学んだメモリ管理のシビアさは、クラウド上の分散学習でさえ活かせる「本質的なスキル」だと確信しています。

よくある質問

Q1: 学習自体をゲームボーイでやることは可能ですか？

理論上は可能ですが、1エポック回すのに数年かかるでしょう。誤差逆伝播（Backpropagation）に必要なメモリも全く足りません。推論（Inference）だけに絞るのが現実的です。

Q2: なぜnanoGPTベースなのですか？

Andrej Karpathy氏のnanoGPTは、Transformerの構造が極限までシンプルに記述されており、C言語への移植が容易だからです。Llamaのような複雑なRoPE（回転位置埋め込み）をZ80で実装するのは、最初のステップとしてはハードルが高すぎます。

Q3: どのくらいの単語数を覚えさせられますか？

Q8.8形式で重みを持つ場合、32KBのバンクを使い切っても数千パラメータが限界です。英単語50語程度の語彙力で、短い定型文を返すのが精一杯ですが、「構造としてTransformerである」ことに意味があります。

この記事で作るもの#

先に確認するスペック・料金#

なぜこの方法を選ぶのか#

Step 1: 環境を整える#

Step 2: 固定小数点演算の実装#

Step 3: 極小Transformerの実装#

Step 4: Pythonからモデルをエクスポートする#

よくあるトラブルと解決法#

次のステップ#

よくある質問#

Q1: 学習自体をゲームボーイでやることは可能ですか？#

Q2: なぜnanoGPTベースなのですか？#

Q3: どのくらいの単語数を覚えさせられますか？#

📚 関連記事

Needle 使い方 入門｜26Mの超軽量モデルで爆速ツール呼び出しを実現する方法

Qwen2.5-122Bクラスの巨大なローカルLLMを、サーマルスロットリング（熱による速度低下）を …

UnslothのMTP対応モデルでローカルLLMの推論速度を2倍にする方法

Qwen 3.6 35B A3B 使い方 | ローカルLLMでプロ級のコード解析環境を作る方法

ローカルLLMの推論速度を体感するシミュレーター自作ガイド

BeeLlama.cppでQwenを高速化して200kコンテキストを動かす方法