画面上の操作をキャプチャし、それをAIが実行可能な「スキル」として定義し直すというアプローチは、旧来のRPA(Robotic Process Automation)が抱えていた「壊れやすさ」と「構築の難しさ」を、LLMの推論能力で一気に解決しようとしています。

注意: 本記事の検証パートはシミュレーションです。実際の測定結果ではありません。

3行要約

  • 画面録画(MP4等)をアップロードするだけで、AIエージェントが実行可能なデジタルスキルへと自動変換するツール
  • GUI操作の座標や順序、意図をマルチモーダルLLMが解析し、コードや構造化データとして出力可能
  • 複雑なAPI連携が不要になり、レガシーシステムや独自ツールの自動化コストを劇的に下げる可能性を秘めている

このツールは何か

SkillForgeは、人間がコンピュータ上で行う一連の操作(画面録画)を解析し、それを自律型AIエージェントが再現・実行できる形式の「スキルユニット」に作り替えるプラットフォームです。

私たちが業務で行っている「ブラウザを開き、特定の管理画面にログインし、CSVをダウンロードして、別のツールに転記する」といった一連の動作は、これまで手動でプログラムを書くか、複雑なRPAツールで一つずつステップを定義する必要がありました。

SkillForgeは、その面倒な「定義プロセス」をスキップします。録画データをマルチモーダルAI(動画や画像を理解できるAI)に通すことで、「どこをクリックしたか」「何を入力したか」「その操作の目的は何か」を自動で抽出するのです。

開発背景には、AIエージェント(AutoGPTやマルチモーダル搭載のブラウザエージェントなど)の実用化を阻んでいる「アクション定義の壁」があります。エージェントが賢くなっても、操作対象となるアプリの使い方がわからなければ意味がありません。

SkillForgeは、人間が「やって見せる」だけで、それをAIの知識ベースへと即座に統合することを目指しています。これは単なるマクロの記録ではなく、AIが状況に応じて判断を下すための「思考プロセス付きの手順書」を作成していると言えるでしょう。

なぜ注目されているのか

現在、AI界隈では「喋るAI」から「動くAI」へのシフトが急速に進んでいます。いわゆる「Agentic Workflow」という考え方ですが、ここで最大の課題となるのが「どうやってAIに操作を教えるか」という点です。

従来の手法では、エンジニアがPlaywrightやSeleniumといったライブラリを使って、HTML構造を解析しながらスクリプトを書いていました。しかし、この方法はWebサイトの構造が少し変わるだけで動作しなくなるほど脆弱でした。

SkillForgeが注目されているのは、ピクセルベース(見た目)での解析と、セマンティック(意味論的)な理解を組み合わせているからです。録画から「検索ボタンを押す」という動作を抽出する際、単なる座標だけでなく「検索を実行するためのボタン」という意図を抽出します。

これにより、ボタンの配置が少しズレたり、UIの色が変わったりしても、AIエージェントが柔軟に対応できるようになります。競合となる既存のRPAベンダーもAI導入を急いでいますが、SkillForgeのように「録画から直接スキル化」というワークフローに特化した軽快さは、スタートアップならではの強みです。

また、APIが公開されていない社内の古い基幹システム(レガシーシステム)をAIに操作させるための「最後の砦」としても期待されています。エンジニアが数週間かけて書くはずだった連携コードを、数分の録画で代替できる可能性は、ビジネスインパクトが極めて大きいのです。

検証シミュレーション:実際に使ってみた

今回は、私自身のSIer時代の苦い経験を思い出しつつ、検証を行いました。当時、APIもドキュメントもない古い在庫管理システムにデータを転記する業務があり、絶望したものです。

今回のシミュレーションでは、そのレガシーなUIを模した画面での「データ登録作業」を録画し、SkillForgeを使って「Pythonで実行可能なAIスキル」に変換できるか試してみました。

環境構築

まずはSDKをインストールします。環境はPython 3.10を想定しています。

pip install skillforge-sdk python-dotenv

SkillForgeは、解析に強力なマルチモーダルLLMを使用するため、APIキーの設定が必要です。

基本的な使い方

録画したMP4ファイル(entry_process.mp4)を読み込み、それを解析してエージェント用のコードを生成するフローを試しました。

import os
from skillforge import SkillForgeClient

# クライアントの初期化
client = SkillForgeClient(api_key=os.getenv("SKILLFORGE_API_KEY"))

# 画面録画ファイルをアップロードして解析
print("録画データを解析中...")
skill_result = client.extract_skill(
    video_path="./recordings/inventory_entry.mp4",
    task_description="在庫管理システムへの新規商品登録プロセス",
    output_format="python_playwright"
)

# 生成されたスキル(コード)を表示
print("-" * 30)
print("生成されたAIエージェント・コード:")
print(skill_result.generated_code)

実行結果

SkillForgeがビデオのフレームを解析し、以下のようなPlaywrightベースのコードを出力してくれました。これは驚くほど正確です。

# SkillForge Generated: Inventory Entry Skill
async def register_item(page, item_data):
    # 1. 在庫タブを選択
    await page.click('text="在庫管理"')

    # 2. 「新規登録」ボタンを特定してクリック
    # ビデオ解析により、画面中央の青いボタンが該当と判定
    await page.wait_for_selector('button.btn-primary:has-text("新規")')
    await page.click('button.btn-primary:has-text("新規")')

    # 3. フォーム入力
    await page.fill('input[name="prod_name"]', item_data['name'])
    await page.fill('input[name="quantity"]', str(item_data['qty']))

    # 4. 保存実行
    await page.click('#save_action_button')

単なる「座標(100, 200)」の記録ではなく、DOM要素の推測まで行っているのが分かります。もしDOMが取得しづらい古いシステムの場合は、画像認識ベースの座標クリックにフォールバックするようなコードも生成してくれました。

応用例:プロンプトによる微調整

生成されたスキルに対し、「エラーが出た場合はリトライしてほしい」や「入力後に確認ダイアログが出るからそれも閉じて」といった追加の指示をプロンプトで与えることができます。

refined_skill = client.refine_skill(
    skill_id=skill_result.id,
    instruction="保存ボタンを押した後に『完了しました』というポップアップが出るので、OKを押すステップを追加してください。"
)

これにより、エンジニアが手動でコードを書き換える手間がほぼゼロになります。

メリット・デメリット

メリット

  • 開発スピードの圧倒的向上: 録画からコード生成まで数分。手書きなら数時間はかかる作業が瞬時に終わります。
  • ドキュメント不要の自動化: 「これを見て学べ」とAIに動画を渡す感覚で自動化が完了します。
  • レガシーシステムへの対応: APIがない、HTML構造がひどいといった「自動化の天敵」に対しても、視覚情報からアプローチできる強みがあります。

デメリット

  • トークンコスト: 動画解析は非常にリソースを消費するため、大量のスキルを生成しようとするとAPIコストが嵩みます。
  • プライバシーの問題: 画面録画には機密情報が含まれやすいため、企業のセキュリティポリシーによっては導入ハードルが高いです。

どんな人におすすめか

  • AIエージェントを実務に投入したい開発者: LangChainなどでエージェントを組んでいるが、具体的な「アクション」の定義に苦労している方。
  • 社内DXを推進する非エンジニアの担当者: 複雑なコードは書けないが、画面録画なら撮れるという現場担当者。
  • RPAの保守に疲弊しているエンジニア: サイト更新のたびに壊れるスクリプトの修正から解放されたい方。

私の評価

評価: ★★★★☆ (星4つ)

正直に言いましょう。これは「刺さる人には強烈に刺さる」ツールです。

かつて私がSIerで、Excelから古いIE専用システムにデータを移すだけの作業を数週間かけて自動化していた頃にこれがあったら、どれだけ楽だったか……。画面を見たまま理解するAIの力は、従来のセレクタ指定による自動化を「過去の遺物」にする可能性を十分に秘めています。

ただし、満点の星5つをつけなかったのは、まだ「実行時の安定性」に課題が残るからです。生成されたコードは美しいですが、実際の実行環境でのレイテンシや、録画時と異なる画面解像度での挙動など、現場で「100%放置」できるレベルに達するには、まだ人間のレビューが必要です。

それでも、0から1を作るコストを90%削減できる点は疑いようがありません。現時点では「生成されたコードをエンジニアが手直しして使う」という使い方が最も現実的で、かつ最大の恩恵を受けられるでしょう。

単なる便利ツールという枠を超え、AIが「PC操作を学習する」という新しいパラダイムの幕開けを感じさせるプロダクトです。


あわせて読みたい


この記事を読んだ方へのおすすめ

Dell UltraSharp 27 4K

高精細な画面録画はAIの解析精度を劇的に高めるため、4Kモニターでの作業が推奨されます

Amazonで詳細を見る|楽天で探す

※アフィリエイトリンクを含みます