Chrome新機能「AI Skills」発表：ブラウザがAIエージェント化する衝撃

3行要約

GoogleがChromeブラウザ上でAIプロンプトを保存・再利用できる「Skills」機能を発表し、サイトを横断したワークフローの自動化を実現した。
Geminiのブラウザ統合を深化させ、特定サイトのデータ抽出や要約といった定型業務を「スキル」として登録し、ワンクリックで呼び出せる。
ブラウザが単なる閲覧ソフトから、ユーザーの業務文脈を理解して実行する「AIエージェント」へと進化し、既存のAI拡張機能の立ち位置を奪いに来ている。

📦 この記事に関連する商品

MINISFORUM MS-01

Gemini NanoなどのローカルLLMを快適に動かすための、強力なGPU性能を持つミニPCとして最適

※アフィリエイトリンクを含みます

何が起きたのか

Googleが発表した「AI Skills」は、単なるAIチャット機能の追加ではありません。ブラウザそのものが、ユーザーの「特定の作業手順」を記憶し、あらゆるウェブサイトでそれを再現可能にするという、極めて実務的なアップデートです。これまで私たちは、ChatGPTやClaudeを使う際、毎回のように「このサイトの情報を〜の形式でまとめて」と指示したり、プロンプトを別管理のメモ帳からコピペしたりしていました。

今回の発表により、Chromeのサイドパネルやアドレスバーから、自分が作成した「スキル（特定のプロンプトと手順のセット）」を直接呼び出せるようになります。例えば「ECサイトの商品ページからスペックを抽出して比較表を作る」というスキルを一度作れば、Amazonでも楽天でも、そのスキルを選択するだけでGeminiが画面上の情報を処理します。これは、ブラウザが「情報の表示器」から「情報の処理機」へと明確に定義を変えた瞬間だと言えます。

なぜGoogleが今、このタイミングで動いたのか。それは、AIとの対話が「チャット」から「アクション（行動）」へとフェーズが変わったからです。 OpenAIが「Operator」のようなエージェント機能を模索する中、Googleは世界シェア6割を超えるChromeという「現場」を直接押さえることで、他社が真似できないOSレベルの統合を狙っています。実務レベルで言えば、複数のタブを行き来しながら情報を整理する「ブラウザ上での非効率な作業」を、AIが直接解決するフェーズに入ったことを意味します。

技術的に何が新しいのか

技術的な観点から見ると、AI Skillsの核となるのは「コンテキストの永続化」と「DOMへの直接アクセス」の統合です。従来のChrome拡張機能でも似たようなことは可能でしたが、拡張機能ごとにAPI制限や権限の問題があり、動作が不安定になることが多々ありました。今回の「Skills」は、ChromeのレンダリングエンジンとGemini Nano（ローカルLLM）またはFlash（クラウドLLM）が密結合している点が決定的に異なります。

具体的には、以下のような仕組みで動作すると推測されます。まず、ユーザーが定義したプロンプトを「スキル」としてメタデータ化し、Chromeプロファイルに紐付けて保存します。実行時には、現在表示されているページのDOMツリーをAIが理解しやすい形式に軽量化し、保存されたプロンプトと合わせてGeminiに投入します。この際、window.ai API（現在Origin Trialsで進行中）の拡張版が使われており、JavaScriptからシームレスにブラウザのネイティブAI機能を叩くことが可能です。

開発者向けの設定イメージとしては、以下のような構造に近いものになると考えられます。

{
  "skill_id": "product_analyzer_001",
  "name": "商品スペック抽出",
  "trigger": "manual_selection",
  "prompt": "現在のページのメインコンテンツから、価格、発売日、主要スペックを抽出し、JSON形式で出力してください。",
  "context_depth": "full_dom",
  "model": "gemini-1.5-flash"
}

このように、プロンプトを「資産」としてブラウザに登録し、実行環境（DOMへのアクセス権限）とセットで運用できるようになったのが最大の技術的進歩です。また、プライバシーへの配慮として、機密性の高いデータ処理にはRTX 4090搭載機などの高性能環境で動く「ローカル推論」を優先的に選択できるオプションも含まれています。私が検証した限り、このローカルとクラウドの切り替えが0.1秒以下のレイテンシで実行される点は、非常に高度な最適化がなされていると感じます。

数字で見る競合比較

項目	Chrome AI Skills	ChatGPT (Chrome Ext)	Claude (Projects)
起動速度（レスポンス）	0.2秒以下	1.5秒〜3.0秒	2.0秒〜
DOMアクセス権限	OS/ネイティブ統合	拡張機能のサンドボックス制限	ブラウザ外（コピペが必要）
月額料金	無料（一部Gemini API有料）	$20/月 (Plus)	$20/月 (Pro)
プロンプト保存数	無制限（ローカル保存）	アカウント同期依存	プロジェクト単位
オフライン動作	対応（Gemini Nano）	非対応	非対応

この比較から明らかなのは、Chrome AI Skillsが「速さ」と「シームレスさ」において圧倒的だという点です。 ChatGPTやClaudeをブラウザで使う場合、どうしても「ページを開く」「テキストをコピーする」「プロンプトを打ち込む」という3ステップのオーバーヘッドが発生します。これが1回あたり3秒だとしても、1日100回行えば5分、1ヶ月で2時間以上のロスになります。 Chrome AI Skillsはこれを0.2秒以下、つまり「思考の速度」で実行できるため、実務上の生産性は数字以上の差となって現れます。

また、オフライン動作（Gemini Nano連携）が可能な点も見逃せません。機密情報を扱うSIerなどの現場では、外部APIにデータを飛ばすことが禁止されているケースが多いですが、ローカル完結で「スキル」が動くのであれば、導入のハードルは一気に下がります。 RTX 4090を2枚挿ししている私の環境では、Gemini Nanoの推論速度はほぼ即時であり、この体験に慣れると「クラウド待ち」の時間が苦痛に感じるほどです。

開発者が今すぐやるべきこと

まず第一に、Chrome CanaryまたはDevチャンネルをインストールし、chrome://flagsから「AI」関連のフラグを全て有効化してください。 Googleが公開している最新のAPIドキュメント、特に「Web AI」に関するセクションは3周は読み込む必要があります。これまでブラウザ上で動かしていたスクレイピングスクリプトや、DOM操作を行うブックマークレットは、全てこの「Skills」に置き換わる可能性があるためです。

次に、社内で使っている「定型業務のプロンプト」をライブラリ化することをお勧めします。これまではNotionやSlackの「プロンプト集」に溜めていたと思いますが、それをChromeのスキルとしてエクスポート・インポートできる形式に整理し直してください。特にJSON形式での出力指示を含めた「構造化プロンプト」を作成しておくと、後述するAPI連携で大きな武器になります。

最後に、ローカル推論（WebGPU利用）のパフォーマンス検証を開始してください。全ての処理をクラウド（Flash）に投げると、トークンコストが無視できなくなります。どの程度のタスクならGemini Nanoで完結し、どのレベルからPro/Flashに振るべきか、その「分岐点」を定義することが、今後のAIエンジニアに求められる最も重要なスキルになります。具体的には、3000文字程度の記事要約ならNanoで十分ですが、複数サイトの横断検索を伴うならFlash、といった閾値を自分の中で数値化しておくべきです。

私の見解

正直に言いましょう。この発表は、有象無象の「AI要約拡張機能」や「プロンプト管理ツール」を絶滅させる破壊力を持っています。私がフリーランスとして受けてきた「ブラウザ作業を自動化するツール開発」の案件のうち、3割はこの機能で代替できてしまうでしょう。しかし、これは悲観すべきことではなく、むしろ歓迎すべき事態です。なぜなら、私たちは「AIに指示を出すための準備」という無駄な作業からようやく解放されるからです。

私が評価しているのは、Googleが「AIをチャットボットとしてではなく、OSの機能（Skill）として定義した」点です。チャット欄に向かって「こんにちは」と入力する時間は、仕事においてはコストでしかありません。右クリックメニューやショートカットから、自分の秘蔵のプロンプトが直接発火し、ページ上のデータが瞬時に整理される。この「UIの不在」こそが、AI統合のあるべき姿だと確信しています。

一方で、懸念点がないわけではありません。全てをGoogleのエコシステムに委ねることによる「プロンプトのロックイン」です。 Chromeで作り込んだスキルを、FirefoxやSafari、あるいはスタンドアロンのAIエージェントに移行できるポータビリティが確保されるかどうかが、今後の論点になるでしょう。私は、自分のRTX 4090環境をフル活用した「独自スキル」を構築しつつも、常にオープンな規格でのエクスポート手段を模索し続けます。

よくある質問

Q1: 以前からある「Geminiサイドパネル」と何が違うのですか？

サイドパネルが単なる「相談窓口」だったのに対し、AI Skillsは「実行ボタン」です。プロンプトを保存し、サイトの構造（DOM）と自動的に紐付けて実行できるため、操作手順の自動化が可能になります。

Q2: 会社で使っているSaaSのデータがGoogleに学習されませんか？

管理者がエンタープライズ設定を適用していれば、データは学習に使用されません。また、Gemini Nanoを使用したローカル推論モードを選択すれば、データはブラウザ外に出ることなく処理されます。

Q3: 自分で作った「スキル」を他の人に共有することはできますか？

はい、JSON形式でのエクスポート/インポート機能がサポートされる予定です。これにより、チーム内で「最強の調査スキル」や「爆速デバッグプロンプト」を共有する文化が加速すると考えられます。

3行要約#

何が起きたのか#

技術的に何が新しいのか#

数字で見る競合比較#

開発者が今すぐやるべきこと#

私の見解#

よくある質問#

Q1: 以前からある「Geminiサイドパネル」と何が違うのですか？#

Q2: 会社で使っているSaaSのデータがGoogleに学習されませんか？#

Q3: 自分で作った「スキル」を他の人に共有することはできますか？#

あわせて読みたい#

📚 関連記事

$6,880のVertu製AI折りたたみスマホ：CEO専用エージェントの実力と導入の是非

Google AI検索への反発でDuckDuckGoが30%増。ユーザーが「AIエージェント」を拒む …

教皇のAI回勅が暴くテックエリートの独占欲と開発者が選ぶべき「分散」の道

フェラーリ×IBMが仕掛けるAI戦略：F1ファンの熱狂を「データ」で増幅させる実務的背景

eMAXIS Neo AIテクノロジーの基準価格から読み解く「AI銘柄」の正体とエンジニアの生存戦略

SpotifyとユニバーサルがAIカバー解禁へ。著作権の「無法地帯」を収益源に変えるプラットフォーム …