UI Agentsは、自然言語プロンプトから信頼性の高い無人UI自動化を構築・実行するための、Automation Anywhereの完全自律型推論エンジンです。

概要

RPA がクリック操作をスクリプト化できる一方で、UI Agents(またはコンピューター利用)は、セレクターや固定的なフローを目標駆動型の計画に置き換えることで、UI の変更に適応し、実行時に複雑な推論を行うことができるため、成果を記述することが可能です。

この柔軟性により、UI Agents は、システムを書き換えることなく、脆弱で複雑な自動化を最新化したいチームに最適です。

メリット

簡単に構築と維持: UI Agentsは本質的に、ブラウザ上で動作する目標指向型 AI エージェントです。UI Agentsは自然言語で記述された目標を入力として受け取り、その目標をターゲットアプリケーション上で直接実行します。 その結果、これらは非常に簡単に構築でき、さらに容易に保守できます。

適応性と回復力: UI Agents レイアウト固有のスクリプトに依存しません。 ページの状態を理解し、提示された情報について考察し、次に何をすべきかを判断します。そのため、ウェブサイトが変更されても自動化は継続して機能し、最小限の手直しで複数のサイトに拡張できます。

エンドツーエンドのワークフロー操作を自動化: これらのUI Agentsは、RPA アクションと共存できるように設計されています。 つまり、同じエディター内で、ブラウザーおよび非ブラウザーのステップを含むエンドツーエンドのプロセス全体を簡単に自動化できます。

仕組み


画像は、UI Agentsのワークフローを示しています。
UI Agentsは自然言語で記述された目標を入力として受け取り、自動的に対象のウェブサイトを起動します。

まず、ページの現在の状態を観察し、その後与えられた目標のための計画を作成します。 それから、ブラウザで計画されたアクションを実行し、ユーザーの目標が達成されたか、さらにアクションが必要かを確認します。 もしさらにアクションが必要な場合、再びウェブサイトの状態を観察し、新しい計画を作成し、それを実行し、出力を確認します。

エージェントは、ユーザーの目標が完全に達成されるまでこのループを継続して実行します。

主な機能とバリュープロポジション

UI Agents の主な特徴をいくつか整理しましょう。

  • それは、ウェブサイトのナビゲーションに対する深い理解を持つ大規模アクションモデル(LAM)を活用しており、高い信頼性と精度を実現します。
  • それは同じ自動化エディターにシームレスに統合されているため、学習曲線を短縮し、同じインターフェースから複雑な自動化を簡単に構築できるようにします。
  • それは、あなたが安全にそれらを実行できるように、組み込まれたガバナンスとガードレールも備えています。
  • そして最後に、私たちは各アクションモデルを信頼性、回復力、正確性のために精査し、あなたに提供する前に確認します。

このすべてから得られる主な成果の一つは、価値実現までの時間の短縮です。これにより、オートメーションを非常に迅速に構築でき、従来は自動化が非常に困難だった新たな事例やシナリオも実現可能になります。

前提条件

お使いのシステムが以下のガイドラインを満たしていることを確認してください。
  • ライセンス:次のいずれか - Bot Creator、市民開発者、有人 Bot (クライアントで実行を指示する Bot) 実行者、無人 Bot (サーバーから実行を指示する Bot) 実行者。
  • ロール: 次のいずれか - AAE_Basic、Pro Developer カスタムロール、市民開発者カスタムロール
  • ブラウザー: Google Chrome(最新バージョン)
  • オペレーティング システム: Windows または MacOS
  • 大型アクションモデル(Large Action Model) を構成します。 UI エージェント用に Narada をセットアップするを参照してください

関連リンク: