3行要約
- 世界初の一般汎用AIエージェントを標榜した「Manus」の化けの皮が剥がれ、不透明な提携関係と実力不足が露呈しました。
- 録画済みのデモ動画と実際の推論プロセスの乖離、さらに既存ツール(Monica)のラッパーに過ぎない疑惑が技術的信頼を失墜させています。
- 開発者は「魔法のツール」への期待を捨て、ClaudeのComputer Useのような透明性の高い低レイヤー操作への回帰を迫られています。
📦 この記事に関連する商品
NVIDIA GeForce RTX 4090エージェントの推論をローカルで高速化するには、VRAM 24GBを持つ4090が現在の最適解です
※アフィリエイトリンクを含みます
何が起きたのか
期待が大きすぎた反動は、常に残酷な形で現れます。自律型AIエージェントの決定版として鳴り物入りで登場した「Manus」が、現在テック業界で激しい批判の矢面に立たされています。TechCrunchが報じた内容は、ある種、我々エンジニアが薄々感じていた「デモの滑らかさと実機の挙動の違和感」を裏付けるものでした。
Manusは、Webブラウジングから複雑なデータ分析、果ては旅行の予約までを「完全に自律して」行うと主張していました。しかし、その実態は、既存のブラウザ拡張機能である「Monica」との不透明な関係性に依存したものであり、独自の革新的な推論エンジンが存在するのかさえ怪しい状況です。私がAPIドキュメントを探しても、具体的な推論アーキテクチャや安全性に関する記述は驚くほど薄いものでした。
このニュースが重要なのは、単一のスタートアップの失敗を意味するからではありません。AI業界全体が「何でもできるエージェント」という誇大広告のフェーズを終え、実力相応の評価を下される「冬の時代(あるいは調整期)」に入ったことを示唆しているからです。Manusが提供していたのは、ユーザーが求める「結果」を生成AIで見せかけるプレゼンテーション層に過ぎず、実務で耐えうる「自律的な試行錯誤」のロジックが欠如していました。
特に、中国のAI企業との関係性や、デモ動画が実際にはスクリプト化されたものであった可能性が指摘されたことで、投資家や開発者の信頼は地に落ちました。AI専門家として言わせてもらえば、この展開は「驚くべきことではない(least surprising)」と言わざるを得ません。
技術的に何が新しいのか
Manusが主張していた「新しさ」は、GAIA(General AI Assistants)ベンチマークでの圧倒的なスコアと、ユーザーが1行指示を出すだけで完結するUIでした。しかし、その裏側にある技術的実態を分析すると、従来の手法と何ら変わらない、あるいはそれ以下の実装であった可能性が高いです。
本来、自律型エージェントが「仕事で使える」レベルに達するには、以下の3つの技術的ハードルを越える必要があります。
- 視覚情報の正確なセマンティック解析: ブラウザのDOM構造だけでなく、スクリーンショットからボタンやフォームを人間と同じ精度で認識すること。
- 長期的プランニングと自己修正: エラーが発生した際に、最初からやり直すのではなく、現在の状態から代替案を導き出す推論力。
- 低レイテンシのフィードバックループ: 推論に1分かかっているようでは、実務での自動化は不可能です。
Manusのデモでは、これらのプロセスが魔法のように一瞬で終わっていましたが、実際に動かしてみたユーザー(ベータテスター)からは、「レスポンスに数分かかる」「単純なDOM操作でループに陥る」といった報告が相次ぎました。これは、裏側でGPT-4oやClaude 3.5 Sonnetのような既存の大規模言語モデル(LLM)を呼び出し、複雑なプロンプトエンジニアリングで無理やり「エージェント風」に見せているだけの「ラッパー・パラダイム」の限界です。
対照的に、Anthropicが公開した「Claude 3.5 Sonnet Computer Use」は、OSレベルでの座標指定とスクリーンショット解析をAPIとして提供し、開発者が「どう動かすか」を制御できるようにしました。Manusはこの「制御」の部分をブラックボックス化し、都合の良い結果だけを表示したのです。技術者から見れば、コード例一つ公開されないクローズドなシステムがいかに脆いか、今回の事件は良い教訓となりました。
数字で見る競合比較
| 項目 | Manus AI (公称値) | Claude 3.5 (Computer Use) | GPT-4o (Operator/Web) | Skyvern (OSS) |
|---|---|---|---|---|
| 推論速度 (1ステップ) | 0.5秒以下(疑義あり) | 2.5秒 - 5.0秒 | 1.5秒 - 3.0秒 | 設定・モデル依存 |
| 成功率 (GAIA) | 90%以上(自称) | 約30-40% | 非公開 | 25-30% |
| 透明性 | 完全ブラックボックス | API提供、プロセス可視化 | 半透明(ブラウザ内) | 完全透過 (OSS) |
| 実行コスト | 月額不明 (高額予測) | $15/1M tokens (Sonnet) | 月額$20 (Plus以上) | 自前サーバー/API代のみ |
| 導入難易度 | 低(チャットのみ) | 中(実装が必要) | 低 | 高(環境構築必須) |
この数字を見てわかる通り、Manusの公称値は現在のLLMの推論速度(TPU/GPUの物理的限界)を無視した数値です。私がRTX 4090を2枚挿ししてローカルでLlama 3 70Bを回しても、エージェント的な試行錯誤(ReActプロンプティング)を含めれば1ステップ数秒はかかります。Manusが「瞬時に」タスクをこなしているように見えたのは、事前のキャッシュか動画編集による演出と考えるのが妥当でしょう。
開発者が今すぐやるべきこと
Manusのような「何でも屋」の幻想が崩れた今、実務でAIエージェントを活用したい開発者は、より堅実で「中身が見える」アプローチにシフトすべきです。
第一に、「Claude 3.5 Sonnet Computer Use API」の実装テストを開始してください。 魔法を信じるのではなく、AIがどうやってマウスクリックを行い、どのステップで失敗するのかを可視化できる環境を作ることが先決です。APIを叩き、実際にデスクトップを操作させる際のレイテンシとトークン消費量を計測し、コスト対効果を算出してください。
第二に、「LangGraph」や「CrewAI」を用いた、ワークフローの構造化に着手してください。 Manusのように一つのモデルに全てを任せるのではなく、検索担当、実行担当、検証担当と役割を分けたマルチエージェント・オーケストレーションを構築する方が、商用環境では遥かに安定します。Python歴8年の経験から断言しますが、自律型AIに「自由」を与えすぎると、本番環境では必ず例外処理で詰まります。
第三に、「ブラウザ操作の抽象化レイヤー」を自前で持つ検討をしてください。 PlaywrightやSeleniumをLLMから操作するラッパーは、オープンソース(Skyvernなど)で既に優れたものが存在します。特定のSaaSエージェントに依存せず、基盤となるLLMをいつでも入れ替えられる(GPT-5が出たらすぐに切り替えられる)設計にしておくことが、技術的負債を抱えない唯一の道です。
私の見解
はっきり言いましょう。私はManusが登場した瞬間から、その「魔法のようなUI」に対して強い懐疑心を抱いていました。技術は積み上げです。ステップ・バイ・ステップの推論プロセスを隠蔽し、派手な出力だけを見せるプロダクトは、SIer時代に嫌というほど見てきた「中身のないデモ用システム」と同じ匂いがしました。
今回のTechCrunchの指摘は、AI業界の不健全な「ハイプ(誇大宣伝)」に対する正当な警鐘です。時価総額を上げるためにベンチマークをハックし、チェリーピックした動画でユーザーを煽る手法は、短期的には資金を集められても、長期的な開発者の信頼は得られません。
私が使いたいのは「勝手にやってくれる魔法の箱」ではなく、「私の指示を正確に遂行し、失敗した時にどこがダメだったかを報告してくれる信頼できるツール」です。Manusの失敗は、AIが人間を代替するのではなく、人間を拡張する道具であるべきだという本質を再認識させてくれました。今のManusは、仕事で使えるツールではなく、投資家向けのエンターテインメントに成り下がっています。
今後3ヶ月以内に、Manusは大幅なピボット(方向転換)を余儀なくされるか、あるいは既存の大手AI企業の機能の一部として吸収され、消えていくでしょう。我々開発者は、その死を見届ける必要はありません。もっと地味で、もっと確実な、コードとAPIの海に戻るべきです。
よくある質問
Q1: Manus AIは完全に詐欺だったということですか?
詐欺と断定するのは時期尚早ですが、宣伝内容と実態に「著しい解離」があるのは事実です。特にMonicaとの提携関係や推論エンジンの独自性については、納得のいく説明がなされていません。
Q2: 自律型AIエージェントの未来はもう暗いのでしょうか?
逆です。Manusのような「過剰な期待」が排除されることで、Claude Computer UseやMicrosoftのMagentic-Oneのような、より実用的で堅実なプロジェクトにリソースが集中し、健全な発展が進むでしょう。
Q3: 開発者が今、最も注目すべき代わりのツールは何ですか?
オープンソースなら「Skyvern」や「OpenDevin(現OpenHands)」、APIベースなら「Claude 3.5 Sonnet Computer Use」です。中身がブラックボックス化されていないツールを選ぶのが、現在のベストプラクティスです。

