3行要約

  • チューリング賞受賞者のヤン・ルカン氏がMetaを去り、新会社AMI Labsで10.3億ドルの資金調達を実施しました。
  • 次の単語を予測するだけのLLM(自己回帰モデル)を卒業し、物理法則を理解する「世界モデル」の実装に特化します。
  • 3.5ドルの評価額がついたこのプロジェクトは、AIが「計画」と「推論」を自律的に行う次世代エージェントへの転換点になります。

📦 この記事に関連する商品

NVIDIA GeForce RTX 4090

世界モデルやJEPAのローカル検証には24GBのVRAMが必須装備となるため

Amazonで見る 楽天で見る

※アフィリエイトリンクを含みます

何が起きたのか

AIの歴史を振り返ったとき、今日という日は「言語の呪縛」からAIが解放され始めた日として記憶されるはずです。MetaのチーフAIサイエンティストとして長年君臨したヤン・ルカン氏が、ついに自らの理想を具現化するためにAMI Labsを本格始動させました。驚くべきはその調達額で、プレマネー評価額35億ドルに対し、10.3億ドル(約1,500億円)という巨額の資金が投じられています。

なぜ今、ルカン氏がMetaという巨大なリソースを捨ててまで独立したのか。その答えは、彼が数年前から主張し続けてきた「今のLLMは、本当の意味での知能を持っていない」という確信にあります。OpenAIのGPT-4やAnthropicのClaude 3.5といった現行のモデルは、膨大なテキストデータを学習し、統計的に「次に来る確率が高い単語」を並べているに過ぎません。これをルカン氏は「自己回帰による破綻」と呼んでいました。

AMI Labsが目指すのは、テキストの羅列ではなく、現実世界の物理的な挙動を理解する「世界モデル(World Models)」の構築です。Meta内部での研究(JEPA: Joint-Embedding Predictive Architecture)をさらに進化させ、それを商用レベルのプラットフォームへと昇華させることが、この新会社のミッションです。今回の資金調達は、単なるスタートアップの成功物語ではなく、シリコンバレーの投資家たちが「Transformerの次」に巨額の賭けを始めたことを意味しています。

私はこれまで、数多くのLLMを実務に導入してきましたが、どれほどパラメータを増やしても「3手先を読めない」「物理的な常識に欠ける」という壁に何度も突き当たってきました。AMI Labsの参入は、我々エンジニアが抱えていた「プロンプトエンジニアリングという名の小細工」を過去のものにする可能性を秘めています。

技術的に何が新しいのか

AMI Labsが掲げる「世界モデル」は、従来の生成AIとは根本的なアーキテクチャが異なります。私たちが今使っている生成モデルは、ピクセル単位、あるいはトークン単位で詳細を復元しようとします。しかし、ルカン氏が提唱するJEPA(Joint-Embedding Predictive Architecture)は、不必要な詳細を「無視」することを前提としています。

例えば、草原を走る犬の動画を予測する場合、従来の生成AIは「草の葉一本一本の揺れ」まで再現しようとして計算リソースを浪費し、結果として物理的な整合性を欠いた映像(脚が3本になったりする現象)を出力しがちです。対して、世界モデル(JEPA)は、草の揺れといった「予測不可能なノイズ」を潜在空間上で切り捨て、犬がどの方向に、どのような速度で移動するかという「重要な抽象概念」だけを予測します。

具体的な構造としては、エンコーダが入力(画像や動画)を抽象的なベクトルに変換し、予測器(Predictor)がそのベクトルが時間経過とともにどう変化するかを推定します。この「非生成的(Non-generative)」なアプローチが、以下の3つのブレイクスルーをもたらします。

  1. 推論コストの劇的な低減 ピクセルを生成する必要がないため、従来の動画生成モデルや大規模マルチモーダルモデルと比較して、計算量は数分の一から数十分の一で済みます。私の手元のRTX 4090環境でも、これなら高速な推論エージェントが動かせると確信しています。

  2. 長期的な計画能力 LLMは1トークンずつ予測するため、文章が長くなるほどエラーが蓄積します。一方、世界モデルは抽象的なステップで未来を予測するため、「目的地に到達するためにどのルートを通るべきか」といった階層的な計画を立てることが可能です。

  3. データ効率の向上 人間が数時間の動画を見るだけで物理法則を学ぶように、AMI Labsのモデルはテキストに頼らず、生の動画データから因果関係を抽出します。これは、インターネット上のテキストデータが枯渇しつつある現状において、極めて強力な武器になります。

エンジニア向けに言えば、これまでの開発が「適切なトークンを選ばせるゲーム」だったのに対し、これからは「モデル内に構築されたシミュレーターをどう活用するか」というフェーズに移行するのです。

数字で見る競合比較

AMI Labsがターゲットとしているのは、単なるチャットボット市場ではありません。彼らが競合視しているのは、OpenAIの次世代推論モデル(o1など)や、テスラのFSD(フル自動運転)に搭載されている世界モデルです。

項目AMI Labs (World Models)OpenAI (GPT-4o/o1)Google (Gemini 1.5 Pro)
学習アプローチ非生成的・潜在空間予測 (JEPA)自己回帰型・トークン予測マルチモーダル・Mixture of Experts
物理法則の理解非常に高い(動画ベース学習)低い(テキストからの推論)中程度(動画入力を処理可能)
推論の安定性ハルシネーションを構造的に抑制高い確率で発生発生するが長いコンテキストで補完
評価額 / 資金力35億ドル / 10.3億ドル調達1,570億ドル / 巨額調達アルファベット傘下(無制限)
主な用途ロボティクス、自律エージェントチャット、コード生成、翻訳解析、クリエイティブ、検索

この比較で注目すべきは「評価額あたりの技術密度」です。OpenAIは膨大なGPUリソースを投入して「ブルートフォース(力技)」で知能をこじ開けようとしていますが、AMI Labsはアルゴリズムの効率性で勝負しています。実務において、APIのレスポンスが1秒かかるか0.1秒かかるかは、UIの体験を根本から変えます。ルカン氏のモデルが実用化されれば、現在$20/1Mトークン程度で取引されている高度な推論コストが、一気に10分の1以下になる可能性があります。

開発者が今すぐやるべきこと

AMI Labsの正式なSDKやAPIが公開されるのを待つ間に、指をくわえて見ている必要はありません。彼らが進む方向性は、すでに公開されている論文やライブラリから読み解くことができます。

まず、PyTorchベースで公開されている「V-JEPA」や「I-JEPA」の公式リポジトリをクローンし、自分のローカル環境で動かしてみてください。既存のTransformerモデルがいかに「見た目の整合性」に固執しているか、そしてJEPAがいかに「本質的な意味」を捉えようとしているか、その出力ベクトルの挙動を比較するだけで、次世代のAI開発の勘所がつかめるはずです。

次に、自身のプロダクトに「エージェント」機能を組み込んでいるなら、その設計を「LLMへの命令」から「状態遷移の定義」へとシフトさせる準備をしてください。世界モデルが主流になれば、我々は「指示文」を書くのではなく、「達成すべきゴール」と「許容される物理的制約」を定義する仕事がメインになります。

最後に、動画データの扱いに慣れておくことです。これまでのAI開発はCSVやJSON、テキストファイルが主役でしたが、これからは動画が最大の学習資源になります。OpenCVやFFmpegといった基本ツールを使いこなし、マルチモーダルな入力をどうベクトル化し、それをどうキャッシュするかというエンジニアリングスキルが、1年後の生存戦略を左右します。

私の見解

私は、ヤン・ルカン氏の今回の動きを全面的に支持します。正直に言って、今の「LLMの巨大化競争」には飽き飽きしていました。パラメータ数を数兆規模に増やし、核発電所が必要なほどの電力を消費して、ようやく「まともな嘘」をつかなくなるというアプローチは、どう考えても持続可能ではありません。

AMI Labsが示しているのは、より「生物に近い」知能の作り方です。私たちの脳は、次にくる文字を予測して動いているわけではありません。周囲の状況をモデル化し、予測し、その予測とのズレを修正することで学習しています。ルカン氏がMetaという看板を外してまでこの道を選んだのは、既存のTransformer構造では「真のAGI(汎用人工知能)」に到達できないと見限ったからでしょう。

もちろん、懸念もあります。10億ドルという資金は、研究開発には十分でも、NVIDIAからH200を数万枚買うには心もとない金額です。しかし、ルカン氏の狙いは「計算量で殴る」ことではなく、「頭の良いアルゴリズム」でゲームのルールを変えることにあります。私は、1年以内にAMI Labsから「GPT-4よりも賢く、かつスマホで動く」ような軽量な世界モデルのプロトタイプが出てくることを期待しています。それこそが、現在GPUを買い占めている巨大テック企業に対する、最高のカウンターパンチになるはずです。

よくある質問

Q1: 世界モデルはChatGPTと何が違うのですか?

ChatGPTは「言葉の並び」を学習していますが、世界モデルは「物事の因果関係」を学習します。例えば「コップを落としたら割れる」という現象を、言葉ではなく物理的な事象の遷移として理解しているため、より正確なシミュレーションや計画が可能です。

Q2: 開発者は今のうちにどの言語やフレームワークを学ぶべきですか?

引き続きPythonとPyTorchが主流ですが、AMI Labsのモデルは動画やセンサーデータの処理が中心になるため、NumPyやSciPy、さらにはロボティクス向けのROS(Robot Operating System)の知識があると、世界モデルを実務に落とし込みやすくなります。

Q3: AMI Labsのモデルはいつ頃一般公開されますか?

ルカン氏はオープンソースを支持する立場ですが、今回は巨額の資金調達を伴う商用ベンチャーです。おそらく3ヶ月から半年以内に、まずは特定のパートナー企業向けにアルファ版APIが提供され、1年以内には開発者向けのプラットフォームが整備されると予測しています。