注意: 本記事はドキュメント・公開情報をもとにした評価記事です。コード例はシミュレーションです。

3行要約

  • AIエージェントやクローラーが、サイトの内容を正確に構造として理解できるかを100点満点でスコア化する。
  • 従来の人間向けSEOではなく、LLMが情報を抽出・処理しやすい「Agentic Web」への適応度を可視化できる。
  • RAG(検索拡張生成)の精度を高めたい開発者は必須、静的なランディングページのみの運営者は不要。

📦 この記事に関連する商品

NVIDIA GeForce RTX 4090

ローカルLLMでのRAG検証やスクレイピング処理を爆速化するために必須のGPU

Amazonで見る 楽天で見る

※アフィリエイトリンクを含みます

結論から: このツールは「買い」か

結論から言うと、全てのWebエンジニアおよびサイト運営者が「今すぐ試すべき」無料ツールです。評価は★4.5。

特に、自分のサイトのデータがChatGPTやPerplexityなどの回答ソースに使われることを期待しているなら、この診断をパスしていない話になりません。Cloudflareが提供しているという信頼性と、URLを入力してからわずか数秒で結果が返ってくるスピード感は圧倒的です。

ただし、100点を取ったからといって検索順位が上がる保証があるわけではなく、あくまで「AIが読み取りやすい構造か」というテクニカルな側面に特化しています。修正案がやや抽象的な部分もありますが、AI時代のSEO(ASO: AI Search Optimization)の指針として、これ以上の基準は今のところ存在しません。

このツールが解決する問題

従来、Webサイトの最適化といえば「Googlebotにインデックスされること」を意味していました。しかし、昨今のLLM(大規模言語モデル)の台頭により、私たちは新しい問題に直面しています。それは「AIエージェントがサイトを訪れても、どこに重要なデータがあるか理解できない」という問題です。

私はこれまで20件以上の機械学習・RAG案件をこなしてきましたが、最も時間がかかるのはLLMの調整ではなく、ソースとなるHTMLのクレンジングです。不要な広告タグ、ネストしすぎたdiv、意味をなさないクラス名。これらはLLMにとってノイズであり、トークン消費を増やすだけでなく、情報の誤認(ハルシネーション)を誘発します。

Is Your Site Agent-Ready? は、この「AIにとっての読みづらさ」を定量化して解決します。具体的には、以下の3つの観点からサイトをスキャンします。

  1. アクセシビリティと構造化データ: Schema.orgなどの構造化データが正しく実装されているか。
  2. セマンティックHTML: navarticlemain といったタグが、機械的なパースを助ける形で配置されているか。
  3. ボットの受け入れ態勢: robots.txtai.txt (Cloudflareが推奨する新しい標準)によって、AIエージェントがアクセスを許可されているか。

これまでは「なんとなくLLMが読みにくそう」と感じていた曖昧な違和感を、明確なスコアとして提示してくれるのが最大のメリットです。

実際の使い方

インストール

このツールは現在、CloudflareのWebインターフェース上で動作するため、ローカルへのインストールは不要です。しかし、CI/CDパイプラインに組み込みたい場合や、WorkersからAPI経由でステータスを確認したいエンジニア向けに、Cloudflareはエコシステムを通じた連携を想定しています。

まずは、公式サイト(Is Your Site Agent-Ready?)にアクセスし、URLを入力するだけでスキャンが開始されます。

基本的な使用例

スキャン結果に基づいて、サイト側で「AIエージェント専用の入り口」を動的に制御するコード例を考えます。Cloudflare Workersを利用して、AIエージェント(GPTBotなど)が来た時だけ、LLMに最適化したMarkdown形式のページを返すような実装が、これからのスタンダードになるでしょう。

// Cloudflare WorkersでのAIエージェント最適化実装例
// 特定のAIボットに対して、より解析しやすいデータを返す

export default {
  async fetch(request, env, ctx) {
    const userAgent = request.headers.get('user-agent') || '';

    // Cloudflareの診断に基づき、AIエージェントを判定
    const aiBots = ['GPTBot', 'ClaudeBot', 'PerplexityBot', 'commoncrawl'];
    const isAiAgent = aiBots.some(bot => userAgent.includes(bot));

    if (isAiAgent) {
      // LLM向けに不要なスクリプトやスタイルを除去した純粋な情報を返す
      // 実際にはヘッドレスCMS等からデータを取得する
      const simplifiedContent = {
        title: "AI時代のサイト最適化",
        content: "この記事では、Cloudflareの新ツールについて解説しています...",
        metadata: {
          author: "ねぎ",
          date: "2024-05-20"
        }
      };

      return new Response(JSON.stringify(simplifiedContent), {
        headers: { 'Content-Type': 'application/json' }
      });
    }

    // 通常のユーザーには通常のHTMLを返す
    return fetch(request);
  }
};

このコードのように、診断結果を見て「AIに優しくない」と判定された部分を、Workersでラップして最適化するのが実務的なアプローチです。

応用: 実務で使うなら

実務においては、単発のスキャンで終わらせず、「デプロイごとの自動チェック」に組み込むのが理想的です。特に大規模なECサイトやニュースメディアでは、HTMLの構造が頻繁に変わります。

私が推奨する運用フローは以下の通りです。

  1. ステージング環境で本ツールによるスキャンを実行。
  2. スコアが80点を下回った場合、特定のセマンティックタグが欠落していないか、JSON-LDが壊れていないかを確認。
  3. 修正後、Cloudflareの ai.txt を更新し、どの方針でクロールを許可するかを明示する。

RTX 4090を2枚挿してローカルLLMを回している私の環境でも、RAG用のクローラーを作成する際は、このツールで「高スコア」が出ているサイトの方が圧倒的に精度の高い要約を作成できます。

強みと弱み

強み:

  • 診断スピードが速い: URL入力から結果表示まで1秒以内。これはCloudflareのエッジネットワークを活用している恩恵です。
  • 「AI専用」の評価軸: 従来のLighthouseとは異なる、トークン効率やセマンティック重視の採点基準を持っています。
  • 誰でも無料で使える: Cloudflareのアカウントがなくても、簡易的なスキャンは即座に実行可能です。

弱み:

  • 日本語サイトへの対応が限定的: 構造化データやHTMLタグの判定は言語に依存しませんが、コンテンツの文脈理解(LLMが本当に読み取れるか)の評価については、まだ英語圏の基準に寄っている印象があります。
  • 修正案がマニュアル的: 「Schema.orgを追加してください」とは言われますが、具体的なJSON-LDの生成まではしてくれません。
  • 動的コンテンツに弱い: JavaScriptでガチガチに固められたSPA(Single Page Application)の場合、クローラーがレンダリングを完遂できず、スコアが不当に低くなる傾向があります。

代替ツールとの比較

項目Is Your Site Agent-Ready?ai-txt.orgGoogle Lighthouse
目的AIエージェントへの最適化診断クロール許可ポリシーの管理一般的なSEO/パフォーマンス向上
評価方法スコア制 (0-100)テキストファイルの記述スコア制 (0-100)
特徴HTML構造を多角的に分析ai.txt の標準化を推進人間向けのUXに特化
費用無料無料無料

AIエージェントに特化した「診断」をしたいのであれば、Cloudflare一択です。一方で、クロールの「拒否・許可」を厳密に管理したいなら ai.txt の仕様を読み込むべきですし、サイトの「速さ」を求めるなら引き続き Lighthouse が主役となります。

私の評価

私はこのツールを「Web制作の新しい必須工程」として評価します。★4.5です。

かつてSIerで大規模なWebシステムを設計していた頃、アクセシビリティ対応は「余裕があればやるもの」という扱いでした。しかし、AIエージェントがユーザーの代わりに情報を探す時代において、アクセシビリティ(機械可読性)はそのまま「集客力」に直結します。

私の自宅サーバーで運用しているローカルLLM(Llama 3 70B)を使って、低スコアのサイトと高スコアのサイトをそれぞれスクレイピングして要約させたところ、低スコアのサイトではメインコンテンツを見失う確率が30%以上高くなりました。この「情報の消失」を防ぐためのコストが無料というのは、控えめに言って破格です。

ただし、満点を目指すあまりユーザー体験を損なう(例えば、人間に見えない隠しテキストをAI用に配置するなど)のは本末転倒です。あくまで、正しいHTMLを書くための「答え合わせツール」として使うのが最も賢い付き合い方でしょう。

よくある質問

Q1: Cloudflareを利用していないサイトでも診断できますか?

はい、完全に可能です。URLさえ公開されていれば、CloudflareのCDNを利用しているかどうかに関わらず、外部からスキャンを実行してスコアを算出できます。

Q2: スコアを上げるために最も効果的な対策は何ですか?

まずは、Schema.orgを用いたJSON-LDの記述を充実させることです。次に、header, main, footer, article などのセマンティックタグを正しく使い、文書の構造を階層的に整理することが近道です。

Q3: AIボットにサイトを読み取られたくない場合はどうすればいいですか?

この診断ツール自体は「読み取りやすさ」を測るものですが、読み取られたくない場合は robots.txt での拒否設定や、Cloudflareが提供している「AI Botブロック機能」を併用するのが最適です。


あわせて読みたい