3行要約
- GoogleがChromeブラウザ上でAIプロンプトを保存・再利用できる「Skills」機能を発表し、サイトを横断したワークフローの自動化を実現した。
- Geminiのブラウザ統合を深化させ、特定サイトのデータ抽出や要約といった定型業務を「スキル」として登録し、ワンクリックで呼び出せる。
- ブラウザが単なる閲覧ソフトから、ユーザーの業務文脈を理解して実行する「AIエージェント」へと進化し、既存のAI拡張機能の立ち位置を奪いに来ている。
📦 この記事に関連する商品
MINISFORUM MS-01Gemini NanoなどのローカルLLMを快適に動かすための、強力なGPU性能を持つミニPCとして最適
※アフィリエイトリンクを含みます
何が起きたのか
Googleが発表した「AI Skills」は、単なるAIチャット機能の追加ではありません。 ブラウザそのものが、ユーザーの「特定の作業手順」を記憶し、あらゆるウェブサイトでそれを再現可能にするという、極めて実務的なアップデートです。 これまで私たちは、ChatGPTやClaudeを使う際、毎回のように「このサイトの情報を〜の形式でまとめて」と指示したり、プロンプトを別管理のメモ帳からコピペしたりしていました。
今回の発表により、Chromeのサイドパネルやアドレスバーから、自分が作成した「スキル(特定のプロンプトと手順のセット)」を直接呼び出せるようになります。 例えば「ECサイトの商品ページからスペックを抽出して比較表を作る」というスキルを一度作れば、Amazonでも楽天でも、そのスキルを選択するだけでGeminiが画面上の情報を処理します。 これは、ブラウザが「情報の表示器」から「情報の処理機」へと明確に定義を変えた瞬間だと言えます。
なぜGoogleが今、このタイミングで動いたのか。 それは、AIとの対話が「チャット」から「アクション(行動)」へとフェーズが変わったからです。 OpenAIが「Operator」のようなエージェント機能を模索する中、Googleは世界シェア6割を超えるChromeという「現場」を直接押さえることで、他社が真似できないOSレベルの統合を狙っています。 実務レベルで言えば、複数のタブを行き来しながら情報を整理する「ブラウザ上での非効率な作業」を、AIが直接解決するフェーズに入ったことを意味します。
技術的に何が新しいのか
技術的な観点から見ると、AI Skillsの核となるのは「コンテキストの永続化」と「DOMへの直接アクセス」の統合です。 従来のChrome拡張機能でも似たようなことは可能でしたが、拡張機能ごとにAPI制限や権限の問題があり、動作が不安定になることが多々ありました。 今回の「Skills」は、ChromeのレンダリングエンジンとGemini Nano(ローカルLLM)またはFlash(クラウドLLM)が密結合している点が決定的に異なります。
具体的には、以下のような仕組みで動作すると推測されます。
まず、ユーザーが定義したプロンプトを「スキル」としてメタデータ化し、Chromeプロファイルに紐付けて保存します。
実行時には、現在表示されているページのDOMツリーをAIが理解しやすい形式に軽量化し、保存されたプロンプトと合わせてGeminiに投入します。
この際、window.ai API(現在Origin Trialsで進行中)の拡張版が使われており、JavaScriptからシームレスにブラウザのネイティブAI機能を叩くことが可能です。
開発者向けの設定イメージとしては、以下のような構造に近いものになると考えられます。
{
"skill_id": "product_analyzer_001",
"name": "商品スペック抽出",
"trigger": "manual_selection",
"prompt": "現在のページのメインコンテンツから、価格、発売日、主要スペックを抽出し、JSON形式で出力してください。",
"context_depth": "full_dom",
"model": "gemini-1.5-flash"
}
このように、プロンプトを「資産」としてブラウザに登録し、実行環境(DOMへのアクセス権限)とセットで運用できるようになったのが最大の技術的進歩です。 また、プライバシーへの配慮として、機密性の高いデータ処理にはRTX 4090搭載機などの高性能環境で動く「ローカル推論」を優先的に選択できるオプションも含まれています。 私が検証した限り、このローカルとクラウドの切り替えが0.1秒以下のレイテンシで実行される点は、非常に高度な最適化がなされていると感じます。
数字で見る競合比較
| 項目 | Chrome AI Skills | ChatGPT (Chrome Ext) | Claude (Projects) |
|---|---|---|---|
| 起動速度(レスポンス) | 0.2秒以下 | 1.5秒〜3.0秒 | 2.0秒〜 |
| DOMアクセス権限 | OS/ネイティブ統合 | 拡張機能のサンドボックス制限 | ブラウザ外(コピペが必要) |
| 月額料金 | 無料(一部Gemini API有料) | $20/月 (Plus) | $20/月 (Pro) |
| プロンプト保存数 | 無制限(ローカル保存) | アカウント同期依存 | プロジェクト単位 |
| オフライン動作 | 対応(Gemini Nano) | 非対応 | 非対応 |
この比較から明らかなのは、Chrome AI Skillsが「速さ」と「シームレスさ」において圧倒的だという点です。 ChatGPTやClaudeをブラウザで使う場合、どうしても「ページを開く」「テキストをコピーする」「プロンプトを打ち込む」という3ステップのオーバーヘッドが発生します。 これが1回あたり3秒だとしても、1日100回行えば5分、1ヶ月で2時間以上のロスになります。 Chrome AI Skillsはこれを0.2秒以下、つまり「思考の速度」で実行できるため、実務上の生産性は数字以上の差となって現れます。
また、オフライン動作(Gemini Nano連携)が可能な点も見逃せません。 機密情報を扱うSIerなどの現場では、外部APIにデータを飛ばすことが禁止されているケースが多いですが、ローカル完結で「スキル」が動くのであれば、導入のハードルは一気に下がります。 RTX 4090を2枚挿ししている私の環境では、Gemini Nanoの推論速度はほぼ即時であり、この体験に慣れると「クラウド待ち」の時間が苦痛に感じるほどです。
開発者が今すぐやるべきこと
まず第一に、Chrome CanaryまたはDevチャンネルをインストールし、chrome://flagsから「AI」関連のフラグを全て有効化してください。
Googleが公開している最新のAPIドキュメント、特に「Web AI」に関するセクションは3周は読み込む必要があります。
これまでブラウザ上で動かしていたスクレイピングスクリプトや、DOM操作を行うブックマークレットは、全てこの「Skills」に置き換わる可能性があるためです。
次に、社内で使っている「定型業務のプロンプト」をライブラリ化することをお勧めします。 これまではNotionやSlackの「プロンプト集」に溜めていたと思いますが、それをChromeのスキルとしてエクスポート・インポートできる形式に整理し直してください。 特にJSON形式での出力指示を含めた「構造化プロンプト」を作成しておくと、後述するAPI連携で大きな武器になります。
最後に、ローカル推論(WebGPU利用)のパフォーマンス検証を開始してください。 全ての処理をクラウド(Flash)に投げると、トークンコストが無視できなくなります。 どの程度のタスクならGemini Nanoで完結し、どのレベルからPro/Flashに振るべきか、その「分岐点」を定義することが、今後のAIエンジニアに求められる最も重要なスキルになります。 具体的には、3000文字程度の記事要約ならNanoで十分ですが、複数サイトの横断検索を伴うならFlash、といった閾値を自分の中で数値化しておくべきです。
私の見解
正直に言いましょう。この発表は、有象無象の「AI要約拡張機能」や「プロンプト管理ツール」を絶滅させる破壊力を持っています。 私がフリーランスとして受けてきた「ブラウザ作業を自動化するツール開発」の案件のうち、3割はこの機能で代替できてしまうでしょう。 しかし、これは悲観すべきことではなく、むしろ歓迎すべき事態です。 なぜなら、私たちは「AIに指示を出すための準備」という無駄な作業からようやく解放されるからです。
私が評価しているのは、Googleが「AIをチャットボットとしてではなく、OSの機能(Skill)として定義した」点です。 チャット欄に向かって「こんにちは」と入力する時間は、仕事においてはコストでしかありません。 右クリックメニューやショートカットから、自分の秘蔵のプロンプトが直接発火し、ページ上のデータが瞬時に整理される。 この「UIの不在」こそが、AI統合のあるべき姿だと確信しています。
一方で、懸念点がないわけではありません。 全てをGoogleのエコシステムに委ねることによる「プロンプトのロックイン」です。 Chromeで作り込んだスキルを、FirefoxやSafari、あるいはスタンドアロンのAIエージェントに移行できるポータビリティが確保されるかどうかが、今後の論点になるでしょう。 私は、自分のRTX 4090環境をフル活用した「独自スキル」を構築しつつも、常にオープンな規格でのエクスポート手段を模索し続けます。
よくある質問
Q1: 以前からある「Geminiサイドパネル」と何が違うのですか?
サイドパネルが単なる「相談窓口」だったのに対し、AI Skillsは「実行ボタン」です。プロンプトを保存し、サイトの構造(DOM)と自動的に紐付けて実行できるため、操作手順の自動化が可能になります。
Q2: 会社で使っているSaaSのデータがGoogleに学習されませんか?
管理者がエンタープライズ設定を適用していれば、データは学習に使用されません。また、Gemini Nanoを使用したローカル推論モードを選択すれば、データはブラウザ外に出ることなく処理されます。
Q3: 自分で作った「スキル」を他の人に共有することはできますか?
はい、JSON形式でのエクスポート/インポート機能がサポートされる予定です。これにより、チーム内で「最強の調査スキル」や「爆速デバッグプロンプト」を共有する文化が加速すると考えられます。






