3行要約

  • Google ChromeがGeminiを統合し、リサーチやデータ入力を自律的に行う「AI同僚(auto browse)」へと進化した。
  • 従来のRPAのような「壊れやすい自動化」ではなく、LLMがDOM構造を直接解釈してタスクを遂行する動的なエージェント機能が中核。
  • 企業ユーザーにとって、ブラウザは単なる「閲覧ソフト」から「自律型ワークフロー実行エンジン」に役割を完全に変えた。

📦 この記事に関連する商品

MINISFORUM UM780 XTX

多タブでのAI自動ブラウジングには、32GB以上のメモリを積んだ高性能ミニPCが必須。

Amazonで見る 楽天で見る

※アフィリエイトリンクを含みます

何が起きたのか

GoogleがChrome Enterpriseユーザー向けに、Geminiを搭載した「AI coworker」機能を発表しました。これは単にブラウザのサイドパネルでチャットができるという話ではありません。ブラウザそのものが「意志」を持ってWebサイトを操作し、人間に代わってタスクを完結させる「auto browse(自動ブラウジング)」機能の導入です。

私がSIer時代に苦労して構築したRPA(Robotic Process Automation)を知る人間からすれば、これは一つの時代の終わりを感じさせるニュースです。従来のブラウザ自動化は、特定のボタンのIDやXPathを指定して「ここをクリックする」という命令を積み上げるものでした。しかし、サイトのデザインが1ピクセル変わるだけでそのスクリプトは壊れます。今回の発表の核心は、Geminiが画面の構造をリアルタイムで理解し、人間が「このリストの企業情報をスプレッドシートにまとめておいて」と頼むだけで、適切なリンクを踏み、情報を抽出し、別のタブに入力するという一連の行動を自律的に行う点にあります。

なぜ今、Googleがこの機能をChromeに直接ねじ込んできたのか。それは、現代の仕事の9割以上がブラウザの中で完結しているからです。SaaSの操作、社内システムへの入力、競合のリサーチ、そのすべてが「Chromeという窓」を通じて行われています。MicrosoftがOSレベルでCopilotを推進するのに対し、Googleは「最も滞在時間の長いアプリケーション」であるブラウザを制圧することで、実務上の主導権を握ろうとしています。

このアップデートは、単なる便利機能の追加ではありません。企業のIT資産管理やセキュリティポリシー、そして何より「社員のスキルセット」に再定義を迫るものです。これまでは「ツールを使いこなす能力」が重視されましたが、これからは「AIにどのようなゴールを指示し、その出力をどう検品するか」というディレクション能力が、一般社員にも求められるようになります。

技術的に何が新しいのか

技術的な観点で見ると、今回の「AI coworker」は、従来のLLMチャットとは一線を画す「Actionable AI(行動するAI)」の実装です。具体的には、Gemini 1.5 Proの長いコンテキストウィンドウと、DOM(Document Object Model)を直接解析する専用の推論エンジンがChromeのコアに統合されています。

これまでのAIエージェント(例えばOpenAIのOperatorやClaudeのComputer Use)は、画面のスクリーンショットを撮り、それを画像認識してマウス位置を計算するという、いわば「外側からの操作」でした。これにはレスポンスに数秒の遅延が発生し、操作ミスも少なくありません。対して今回のChrome Enterpriseの統合では、ブラウザのレンダリングプロセスそのものにAIがアクセスしています。これにより、描画される前のデータ構造を直接読み取り、クリックや入力のイベントをプログラム内部で発行できるため、正確性と速度が桁違いです。

例えば、以下のような擬似的な命令が、ブラウザ内部で「コード」として解釈され、実行されます。

// 内部的な動作イメージ(概念的)
await chrome.ai.execute({
  task: "競合サイトAの新製品価格を全て抽出し、社内ERPの価格改定フォームに下書き保存して",
  constraints: "価格が10%以上変動しているもののみ対象"
});

このとき、Geminiは単にテキストを探すだけでなく、そのサイトが「ECサイトなのか」「ニュースサイトなのか」というコンテキストを理解します。もし目的のボタンが見つからなければ、検索窓にキーワードを打ち込んで自力で探し出すといった「自己修復(Self-healing)」的な挙動も含まれています。これは、固定されたスクリプトを走らせるRPAでは絶対に不可能だった領域です。

さらに注目すべきは、Google Workspaceとの緊密な連携です。Chrome上で開いているGeminiが、Googleドライブ内のドキュメントやGmailの履歴を参照しながら、Web上のフォームを埋めていく。この「情報のクロスリファレンス」が、ブラウザという一つのサンドボックス内で完結している点が、セキュリティと利便性の両立において極めて強力な武器になります。

数字で見る競合比較

項目Chrome AI CoworkerMicrosoft Edge (Copilot)Claude 3.5 (Computer Use)
統合レベルブラウザコア(DOM直接操作)サイドパネル / OS連携OSレベル(画面認識)
操作の正確性非常に高い(内部イベント)中(主に要約と支援)高(だが画面変化に弱い)
実行速度レスポンス0.5秒以下1.0秒以上(チャット経由)3.0秒以上(画像処理に依存)
対応範囲Webアプリケーション全般Windowsアプリ + WebMac/Windows/Linux全般
導入コストChrome Enterprise(月額$6〜)Copilot for M365(月額$30)API利用料(従量課金)

この比較からわかる通り、Chrome AIの強みは「Webに特化した速度とコストパフォーマンス」にあります。Claude 3.5のComputer Useを動かすには、1アクションごとに数円のAPIコストと数秒の待機時間が必要ですが、Chromeにネイティブ統合された機能であれば、サブスクリプションの範囲内で高速に、かつ安定して動作します。

実務においては、この「0.5秒」と「3.0秒」の差が決定的な体験の差を生みます。1日に数百回の操作を自動化する場合、待機時間の合計が生産性に直結するからです。また、企業が既にChrome Enterpriseを導入している場合、追加の環境構築なしで明日から使えるという「導入障壁の低さ」も、他社が追いつけないポイントです。

開発者が今すぐやるべきこと

このニュースを受けて、我々エンジニアや実務者が取るべきアクションは3つあります。

第一に、自社が提供しているWebサービスの「アクセシビリティ(DOM構造)」を再点検することです。AIエージェントは、適切にセマンティックなタグ付けがなされたサイトを好みます。<div>の羅列で構築されたサイトよりも、<button><input type="text">aria-labelが正しく設定されたサイトの方が、AIによる誤操作が減ります。これはSEO対策ならぬ「AIO(AI Optimization)」の第一歩です。

第二に、既存のRPAワークフローの棚卸しです。これまで「UIパス」などの高価なツールで維持していた単純なデータ連携は、今回のChromeの新機能でリプレイスできる可能性が極めて高いです。月額数十万円かかっていたライセンス料を、Chrome Enterpriseの月額数ドルのコストに圧縮できるチャンスです。今すぐ、ブラウザ完結型の業務フローをリストアップしましょう。

第三に、Gemini APIを利用した「ブラウザ拡張機能」のプロトタイプ作成です。Googleが公式に提供するAI機能だけでなく、特定の業務に特化した「AI coworker」を自分たちでカスタマイズして実装できるAPIも順次公開されるはずです。特に、ブラウザ内のデータをAIに食わせる際のセキュリティ境界(DLP: Data Loss Prevention)の設定方法を、今のうちにドキュメントで確認しておくことを強く推奨します。

私の見解

私は、このGoogleの動きを「執念の巻き返し」だと評価しています。正直なところ、ここ1年ほどはOpenAIやAnthropicの後塵を拝している印象が拭えませんでしたが、今回の「Chromeをエージェント化する」という戦略は、Googleにしかできない王道の勝ちパターンです。

なぜなら、私たちはどれだけGPT-4が賢くなろうとも、結局は「Chrome」という窓を開いて仕事をしているからです。家主(Google)が「家自体を自動化する」と言い出したとき、外から家具(ChatGPT)を持ち込んでいる他社は、どうしても統合の深さで負けてしまいます。

ただし、一点懸念しているのは、Googleの「Enterprise向け機能の名称変更と廃止の多さ」です。これまで何度も名前を変えては消えていったプロダクトを見てきた身としては、この「AI coworker」が1年後も同じ名前、同じ仕様で存在している保証がない。だからこそ、開発者は特定の「Google製自動化機能」に依存しすぎず、いつでも標準的なWeb技術(DOM操作)にフォールバックできる設計を意識しておくべきです。

私の予測では、あと3ヶ月もすれば「ブラウザ操作を自動化できない社員は、単純作業の価値がゼロになる」という残酷な現実が突きつけられるはずです。これは脅しではなく、単純なコスト計算の結果です。月額数ドルで24時間、不平も言わずにデータ入力をこなすAI同僚がいるのに、人間がポチポチとフォームを埋める理由はどこにもありません。

よくある質問

Q1: Chrome Enterprise版のみの提供ですか?一般ユーザーは使えませんか?

当初は管理機能やセキュリティが重視されるEnterprise版からの提供となります。機密データの取り扱いを制御する必要があるためですが、順次、個人のGoogle Oneユーザーなどにも「Gemini Advanced」の機能の一部として降りてくる可能性が高いです。

Q2: 既存のWebサイト側で「AIによる自動操作」を拒否することはできますか?

技術的には、bot検知システムを強化することで防げますが、Googleは正規のユーザー操作としてエミュレートするため、判別は非常に困難です。むしろ、AIに優しくないサイトはユーザーから選ばれなくなる時代が来るでしょう。

Q3: データのプライバシーはどうなっていますか?社内データがGeminiの学習に使われませんか?

Enterprise版の契約では、入力されたデータや操作履歴がモデルの学習に利用されないことが規約で保証されています。これが、一般向けのチャットAIをそのまま業務に使うのと、今回の公式統合機能を使うことの最大の違いです。


あわせて読みたい