UI Agents をより大きなプロセス内で関数として使用する場合、目標を達成するために、設計が環境やタスク間の組織的な順序をどのようにナビゲートするかを検討してください。

これらの例は、明確に定義された自然言語の目標が、エージェントによるウェブポータルのナビゲーション、フォームの入力、構造化データの抽出、ファイルのダウンロード、および複数ステップのワークフローの実行を可能にすることを示しています。 正確なプロンプトの作成、構造化された出力の定義、複雑な目標をより小さく信頼性の高いタスクに分解することに重点が置かれています。

これは、複数の実行アクションの連結、ブラウザーセッションをまたいだ操作、保護された変数による機密データの保護、プロキシの設定、詳細な実行ログの生成など、エンタープライズ対応の機能も強調しています。 これらの例は、UI Agents がより大規模なエンドツーエンドの自動化アーキテクチャ内で、適応的かつガバナンスの効いたコンポーネントとして機能する方法を示しています。

一般的なシナリオ

最良の結果を得るために、UI Agents に入力されたプロンプトを以下の実行時例と比較できます。 UI Agents を望ましい結果に導くために使用できるプロンプトの例を見つけてください。
使用可能なさまざまな設計を示します。

エージェント プロセス オートメーションの設計パターン

複雑なエージェント プロセス オートメーションを構築するには、次のいずれかまたは複数の設計パターンに従うことができます。

パターン 1: UI エージェント専用(ブラウザータスク用): 1 回の中断のないセッションで完了できる、単一かつ自己完結型タスクのための信頼性の高いパターン。
ブラウザータスクにエージェントのみが必要な場合に必要なアクションを示します。
パターン2: ブラウザータスクのフォールバックとして UI エージェントを使用した RPA: 変更があまり頻繁に発生しない少数のアプリケーションを扱う場合や、完全なエージェント ソリューションのコストを削減する場合に有用なパターンです。
エージェントがブラウザータスクのフォールバックとして使用される場合に必要なアクションを示します。
パターン3: 非ブラウザータスクには RPA を、ブラウザータスクには UI エージェントを使用します。 作業を複数の独立したタスクに分割し、ほとんど依存関係がない状態で同じマシン上で実行できる場合に有用なパターンです。
ブラウザーのタスクがエージェントによって完了し、非ブラウザーのタスクが RPA によって完了する場合に必要なアクションを示します。

ユース ケースと例

一般的な操作を実行するための設定および例となるプロンプトの詳細については、以下の例をご参照ください。