検証ルールで正規表現抽出アクションを使用する

正規表現抽出アクションでは、ドキュメントから抽出された値にカスタムの正規表現 (regex) を適用できます。このアクションにより、ユーザーは指定した正規表現パターンに基づいて特定の部分文字列を抽出して抽出データを操作できます。

ドキュメントが処理されて値が抽出されたら、この値に対して正規表現抽出アクションを適用できます。抽出値の特定部分の識別と抽出に使用する正規表現パターンを定義できます。
注: これは、指定の正規表現パターンに基づいて、その値で見つかった最初の一致のみを抽出します。

前提条件

  • 正規表現抽出アクションを適用すると、抽出時に最初の正規表現に一致するフィールド値が設定されます。
  • 指定した正規表現がフィールドに一致しない場合、空のフィールド値が返されます。
  • 更新 (v.31) パッケージをラーニングインスタンスに接続していない場合は、このルールが期待通りに動作しない可能性があることを示す警告メッセージが表示されます。

この機能は、抽出データの一部だけが必要な状況で特に有用です。たとえば、より大きな文字列から特定の数字の集合を抽出したり、住所の一部を分離したり、テーブルの説明から特定の断片を取り出したりする場合です。

次の例では、ドキュメントの Description 列から Vendor Code を抽出する場合、Description 列からすべての説明テキストを取得します。

次の画像は、通常の抽出処理による Vendor Code の値を示しています。

正規表現抽出アクションの適用前

この例では、ドキュメントの Description 列から Vendor Code だけを抽出する方法を見ていきます。

手順

  1. [フィールド ルール] タブで [ルールの追加] をクリックします。
  2. [ベンダー コード] フィールドに [空でない] 条件を指定します。
  3. [正規表現抽出] アクション タイプを選択します。
  4. 正規表現パターンを指定します。たとえば、Vendor Code: \d{6} です。
  5. 指定パターンに適切な値を与えて正規表現パターンをテストし、[更新] をクリックします。たとえば、Vendor Code: 381823 です。
    正規表現抽出アクションの使用
  6. ドキュメントを処理するには、[処理] をクリックします。
    指定した正規表現パターンに基づいて、Description 列から Vendor Code の値のみが抽出されます。

    次の画像は、正規表現抽出アクションの適用後の Vendor Code の値を示しています。

    正規表現抽出アクションを使用したベンダー コード抽出

    以下は、抽出に使用できる正規表現パターンの例です。
    データ タイプ 正規表現パターン
    テキストまたは住所 \b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+.[A-Z|a-z]{2,}\b test@gmail.com
    \b\d{3}[-.]?\d{3}[-.]?\d{4}\b 123.456.7890 または 123-456-7890
    数字 ^\d{2}$ 122399 のいずれか
    ^[0-9]+$ 123 または 12434
    日付 \b\d{1,2}[/-]\d{1,2}[/-]\d{4}\b 12/31/2022 または 02/07/2012
    ^\d{2}/\d{2}/\d{4}$ 28/02/2222
    注: これらの正規表現パターンは固定されたものではなく、事例の要件によって異なる場合があります。