構造化データ抽出 action

新しい構造化データ抽出 action を活用し、HTML 技術で構築されたウェブアプリケーションから構造化データブロックを取得してください。 実行時に、Recorderは選択されたオブジェクトに似たオブジェクトを特定し、それらを行に整理し、子要素は列としてマッピングされます。

注: この action は、オートメーションを構築するために Windows プラットフォームでのみ利用可能です。

前提条件

ブラウザ拡張機能(バージョン 4.1.0.0 以上)を使用していることを確認してください。

アクション パラメーター

  • レコーダー > 構造化データ抽出 の順にダブルクリックまたはドラッグします。
  • オブジェクトをキャプチャするウィンドウを指定します。 アプリケーションブラウザ、または 変数 タブから選択します。
    • アプリケーション: 現在アクティブなウィンドウのリストから選択します。 このオプションでは、Bot Creator デバイスで開いているすべてのアプリケーション ウィンドウとブラウザ ウィンドウのリストが表示されます。
    • ブラウザ: サポートされているブラウザータブの一覧から、Google Chrome や Chromium ベースの Microsoft Edge などを選択します。
    • 変数: 既存のウィンドウ変数を選択して、アプリケーション ウィンドウのタイトルを指定します。
  • オブジェクトをキャプチャするウィンドウを指定します。
  • オブジェクトをキャプチャ をクリックします。

    選択したウィンドウが表示されます。

  • 指定された、類似の他の要素を持つオブジェクトの上にマウスを移動させてください。

    オブジェクトの周りに赤い長方形のボックスが表示されます。

    キャプチャされたオブジェクトの周りの長方形のボックス

  • キャプチャするオブジェクトをクリックします。
  • オブジェクトのプロパティ テーブルを確認します。
    重要: HTML IDパス など、ページごとに変化する可能性のあるプロパティは選択解除することを推奨します。 代わりに、DOMXPath や CSS セレクタのようなプロパティを含めてください。
  • データ抽出タイプから、システムまたはカスタムを選択してください。
    • システム: このモードは、ウェブページの選択したセクションから繰り返しデータパターンを自動的に検出し、抽出します。 テキスト、画像、ハイパーリンクなどの一般的なフィールドを特定し、それらを列に構造化します。 このモードは、各列を手動で設定することなく、製品リストや表などの標準データレイアウトを迅速に抽出したいときに最適です。
    • カスタム: カスタムモードは、より高い精度が必要な複雑または非標準のページレイアウトに最適です。 キャプチャされた要素が多くの子要素を含む場合に特に便利ですが、必要なものだけを抽出する必要があります。 さらに、カスタムモードは、抽出されたデータが固定された事前定義の列数に保たれることを保証します。
      カスタム抽出を実行する を選択して、キャプチャされたオブジェクトからすべてのデータポイントを抽出します。これには DOMXPath とそのサンプル値が含まれます。 その後、抽出したデータを手動で設定または調整し、XPath 式を編集し、列の名前を変更し、必要に応じて要素を追加、削除、または再配置できます。 カスタムモードは、より高い精度が必要な複雑または非標準のページレイアウトに最適です。
      重要: アプリケーションタブで変数を使用すると、カスタム抽出を実行する際にエラーが発生する可能性があります。 アプリケーションタブのドロップダウンから特定のウィンドウを選択し、Botを保存せずにカスタム抽出を実行することを推奨します。
  • システム タイムアウトの設定 フィールドから、基本 または 詳細 を選択します。
    • 基本: システム レスポンスを待機 (秒数) フィールドで、オブジェクト コントロールをアプリケーション ウィンドウに表示するまで bot が待機する必要がある秒数を指定します。 この待機時間には、ページのロードとオブジェクト検索の両方の待機時間が含まれます。
      注: アプリケーション ウィンドウにコントロールが表示されるまで bot を待機させるタイムアウト値を指定します。このタイムアウト値は、コントロールが表示されるウィンドウが存在する場合にのみ適用されます。 Recorderは、最初にアプリケーション ウィンドウを検索し、次にウィンドウの中にあるオブジェクトを検索します。 ウィンドウの検索時間は、デフォルトで 30 秒です。 このため、待ち時間を 5 秒に指定しても、ウィンドウが存在しない場合は、デフォルトで 30 秒間待機します。

      まず、If > ウィンドウが存在する 条件を使用し、待機時間を 0 秒に指定し、アプリケーション ウィンドウが存在することを確認することをお勧めします。 ウィンドウが存在する場合は、Recorderを使用し、待機時間を 5 秒に指定し、bot を実行してオブジェクトを検出します。

    • 詳細: このオプションは、株式の Web サイトなど、常に最新のデータをロードして更新している Web サイトを自動化するために使用します。 これらの Web サイトは、技術的に画面に完全にはロードされません。 このような場合、bot は Web ページが完全にロードされるのを待つ必要がなく、一定時間後に Web ページの自動化を直接進めることができます。

      ブラウザ レスポンスを待機 (秒数) フィールドで、bot がブラウザのロードを待機する必要がある秒数を指定します。 次のいずれかのオプションを選択します。

      • Bot を停止し、エラー メッセージを表示する: 指定したタイムアウト時間内に Web ページが完全にロードされなかった場合は、このオプションを選択して bot を停止し、エラー メッセージを表示します。
      • スキップしてオブジェクトに進む: このオプションを選択すると、Web ページが完全にロードされていない場合でも、オブジェクトに直接進み、キャプチャします。

      オブジェクト レスポンスを待機 (秒数) フィールドで、オブジェクト コントロールをアプリケーション ウィンドウに表示するまで bot が待機する必要がある秒数を指定します。

    • ページには遅延読み込みが設定されています: データが動的に読み込まれ、自動的に読み込みが続くページの場合は、このオプションを選択してください。 例えば、アイテムはスクロールするとページに読み込まれます。
      • 再試行回数: 新しいデータを確認するために必要な再試行回数を入力してください。
      • 再試行間の待機時間: リトライ試行の間に自動化が待機する秒数を入力してください。
  • 結果を変数に保存 フィールドで、出力を格納する データテーブル 変数を作成します。

    抽出されたデータはデータテーブルに保存され、類似のオブジェクトが行として配置され、その子要素が列として表されます。

既知の製品の動作

  • 抽出中はテキストコンテンツのみが抽出されます。 imginputselectbuttonscriptstyleのようなタグは、抽出中にスキップされます。
  • 構造化データ抽出 アクション によって生成されたデータを CSV ファイルに保存するために データテーブル > ファイルに書き込む アクション を使用する場合は、エンコーディングとして UTF-8 を選択してください。
  • シャドウ DOM 内の類似要素はサポートされていません。
  • システムは、元のキャプチャされたオブジェクトが利用できない場合、オブジェクトを見つけることができません。
  • セキュア記録は現在サポートされていません。

事例

以下は、構造化データ抽出をテストできるいくつかのウェブサイトです: