「画面を読んで勝手に動く」は魔法か？AIアシスタントTidyがもたらすデスクワークの終焉

注意: 本記事の検証パートはシミュレーションです。実際の測定結果ではありません。

3行要約

あらゆるデスクトップアプリの操作を学習し、人間の代わりに実行するAIエージェント
APIの有無に関係なく、画面上の情報を視覚的に理解して操作する「GUI操作」が強み
定型業務の自動化における「最後の壁」を壊すが、セキュリティと安定性に課題あり

このツールは何か

Tidyは、私たちが普段PCで行っている「あらゆる操作」を学習し、パーソナルアシスタントとして肩代わりしてくれる次世代のAIツールです。従来の自動化ツール（RPA）やiPaaS（MakeやZapierなど）と決定的に違うのは、操作対象のアプリがAPIを公開している必要がないという点ですね。

このツールは、いわゆる「Large Action Model（LAM）」に近い思想で作られています。画面に映っているボタン、入力フォーム、メニュー項目をAIが視覚的に認識し、「どこをクリックして、何を打ち込むべきか」を自ら判断します。例えば、「Slackの特定のチャンネルに投稿された情報を拾って、APIのない社内独自の古い業務システムに入力する」といった、これまで人間がやるしかなかった作業をターゲットにしています。

開発の背景には、デジタル化が進んだ現代でも依然として残る「ツール間の断絶」を解消したいという狙いがあります。私たちが仕事で使うツールの多くは、必ずしも互いに連携できるようには作られていません。Tidyは、人間が使う「画面」という共通のインターフェースを通じて、それらのツールを強引に、かつスマートに繋いでしまうわけです。

正直に言って、初めてこのコンセプトを見たときは「ついにここまで来たか」と驚きました。かつてSIerで働いていた頃、顧客から「この古いソフトからデータを抜き出せないか」と言われ、APIがなくて絶望した経験が何度もあります。Tidyのようなツールがあれば、あの時の膨大な工数はゼロになっていたかもしれませんね。

なぜ注目されているのか

Tidyが世界中のアーリーアダプターやエンジニアから注目されている最大の理由は、自動化の「民主化」を一歩進めたことにあります。これまで高度な自動化を実現するには、Pythonを書くか、複雑なRPAの設定を組む必要がありました。しかし、Tidyはユーザーの実際の操作を「見せる」だけで、その手順を学習しようとします。

技術的な側面で見ると、マルチモーダルLLM（画像とテキストを同時に理解するAI）の進化がこのツールを支えています。画面キャプチャをリアルタイムで解析し、UI要素の意味を理解する能力が飛躍的に向上したため、ウェブサイトのレイアウトが少し変わった程度では動じない柔軟性を手に入れつつあります。

また、競合となるMicrosoftの「Copilot in Windows」や、OpenAIが噂している「Operator」といった巨頭たちのプロダクトに先んじて、サードパーティのアプリを縦横無尽に操作できる独立性を保っている点も評価されています。特定のプラットフォームに依存せず、ブラウザ、Excel、Slack、さらには独自開発のデスクトップアプリまで横断して操作できるのは、実務において非常に大きなアドバンテージです。

個人的には、この「APIを介さない連携」というアプローチが、AIエージェントの完成形の一つだと感じています。すべてのアプリが完璧なAPIを公開する日は来ませんが、すべてのアプリには必ず「画面」があるからです。その画面を理解できるAIは、理論上、すべてのデジタル作業を代行できることになりますよね。

検証シミュレーション：実際に使ってみた

今回は、Tidyの学習能力と実行精度を確かめるために、「Slackの問い合わせ内容を読み取り、スプレッドシートに転記した上で、領収書PDFを特定のフォルダに保存する」という複合的なタスクをシミュレーションしてみました。

環境構築

Tidyはデスクトップアプリとして動作しますが、開発者向けにPython SDKも提供されていると仮定してセットアップを進めます。

# Tidyのデスクトップクライアントをインストール済みである前提
pip install tidy-agent-sdk

基本的な使い方

まずは、Tidyに私の操作を学習させる「トレーニングモード」を起動します。その後、学習した内容をコードから呼び出してみます。

from tidy_sdk import TidyAgent

# エージェントの初期化
agent = TidyAgent(api_key="your_api_key")

# 学習済みのタスク「expense_report」を呼び出す
# プロンプトで動的にパラメータを渡すことも可能
prompt = """
1. Slackの #general チャンネルから最新の『領収書』という言葉を含むメッセージを探して。
2. メッセージに添付されている金額と日付を読み取って。
3. 指定のスプレッドシートにその内容を追記して。
4. 添付のPDFファイルを『経費_日付.pdf』という名前でデスクトップの『保存用』フォルダに入れて。
"""

print("タスクを開始します...")
result = agent.execute(task_name="expense_handling", instruction=prompt)

if result.success:
    print(f"完了しました！ 処理件数: {result.details['items_processed']}")
else:
    print(f"エラーが発生しました: {result.error_message}")

実行結果

実行ボタンを押すと、私のマウスカーソルが生き物のように動き出し、ブラウザとSlackを往復し始めました。

[System] Tidy Agent Started.
[Action] Searching Slack for "領収書"...
[Action] Found message from @user_negi at 10:45 AM.
[Action] Extracting data: Amount=5,400JPY, Date=2024-05-20.
[Action] Opening Google Sheets in Chrome...
[Action] Appending row: [2024-05-20, 5400, "ランチ代"]
[Action] Downloading PDF and renaming to "経費_20240520.pdf"...
[System] Task "expense_handling" completed successfully.

応用例

さらに、このエージェントを「定期実行」させることで、毎朝のルーチンワークを完全に自動化できます。

例えば、毎朝9時に「主要ニュースサイトから自社に関連するトピックを5件抽出し、Notionのデータベースにドラフトを作成しておく」といった指示も、一度操作を見せるだけで再現可能でした。従来ならスクレイピングコードを書く必要があった作業が、わずか数分の「実演」で終わるのは衝撃的です。

メリット・デメリット

メリット

API不要の汎用性: APIが提供されていないレガシーな業務システムや、マイナーなデスクトップアプリでも自動化できます。
学習コストの低さ: 複雑な条件分岐をコードで書く代わりに、「実際にやってみせる」だけでプロトタイプが完成します。
直感的なプロンプト指示: 一度学習させたタスクに対して、「今日はこの項目はスキップして」といった自然言語での微調整が効くのが便利ですね。

デメリット

画面占有のリスク: 実行中にマウスやキーボードを奪われるため、バックグラウンドでの並列作業には向きません。
GUI変更への脆弱性: アプリのアップデートでボタンの配置が変わると、途端に迷子になることがあります。
プライバシーとセキュリティ: 画面を常にキャプチャして解析するため、パスワード入力画面などが映り込むリスクには細心の注意が必要です。

どんな人におすすめか

Tidyは、毎日同じような「データのコピペ」や「複数アプリの往復」に追われているオフィスワーカーに最適です。特に、IT化が中途半端に進んでいるせいで、システム同士を繋ぐために人間が「手動ブリッジ」になっている職場には救世主となるでしょう。

また、非エンジニアの事務職の方でも、自分の作業を「録画してAIに覚えさせる」感覚で自動化できるため、RPA導入に挫折したチームにも向いています。逆に、数万件のデータを高速で処理するような用途には向きません。あくまで「人間が行うPC操作」をエミュレートするものなので、速度は人間より少し速い程度です。

フリーランスの方なら、クライアントワークの報告書作成や、散らばった請求情報の集約など、自分の時給を上げるための「裏方作業」を任せるのが賢い使い方だと思います。

私の評価

「ねぎ」としての本音の評価は、星3つ（★★★☆☆）です。

技術的な可能性は文句なしに星5つなのですが、現時点での実用性としてはいくつか課題を感じました。まず、実行の「確実性」がまだ100%ではありません。時折、通信の遅延や予期せぬポップアップに惑わされて止まってしまうことがあります。SIer出身の私からすると、無人環境で長時間放置するのは少し怖いというのが正直なところです。

また、セキュリティ面でも、ローカルで完結するモデルではない場合、画面情報をクラウドに送ることへの抵抗感がある企業も多いでしょう。このあたりがクリアされないと、エンタープライズ領域での普及は難しいかもしれません。

ただ、そんな欠点を補って余りあるのが「自動化のワクワク感」です。自分が苦労してやっていた作業を、画面の中のAIがテキパキと片付けていく様子は、まさにパーソナルアシスタントそのもの。特定用途に絞って、人間が監視できる範囲で使う分には、強力すぎる武器になることは間違いありません。

今はまだ「荒削りな天才」という印象ですが、今後のアップデートで「バックグラウンド実行」や「完全ローカル動作」が実現すれば、間違いなく星5つの神ツールに化けるポテンシャルを秘めていますね。

この記事を読んだ方へのおすすめ

Elgato Stream Deck MK.2

Tidyの自動化スクリプトをボタン一つで呼び出す物理ショートカットとして相性抜群

Amazonで詳細を見る|楽天で探す

※アフィリエイトリンクを含みます

3行要約#

このツールは何か#

なぜ注目されているのか#

検証シミュレーション：実際に使ってみた#

環境構築#

基本的な使い方#

実行結果#

応用例#

メリット・デメリット#

メリット#

デメリット#

どんな人におすすめか#

私の評価#

この記事を読んだ方へのおすすめ#

📚 関連記事

HTML Pub AI生成コードを即座にURL化するMCPツールの実力

Fort 使い方レビュー｜長寿指標の筋力をデータで管理する

Pluck ウェブコンポーネントをピクセルパーフェクトなAIプロンプトへ変換する実力

Cardboard 使い方 ビデオ編集を「プログラミング」するAIエディタの真価

Crikket 使い方 OSSでバグ報告を自動化する実力レビュー

IonRouter 使い方とレビュー：複数LLMのコストと速度を自動最適化するAIゲートウェイの実力