유효성 검사 규칙에서 정규식 추출 동작 사용하기

regex extract 작업을 사용하면 문서에서 추출한 값에 사용자 정의 정규식(regex)을 적용할 수 있습니다. 이 작업을 통해 사용자는 지정된 정규식 패턴을 기반으로 특정 하위 문자열을 추출하여 추출된 데이터를 조작할 수 있습니다.

문서를 처리하고 값을 추출한 후에는 그 값에 regex extract 작업을 적용할 수 있습니다. 추출된 값의 특정 부분을 식별하고 추출하는 데 사용할 정규식 패턴을 정의할 수 있습니다.
주: 지정된 정규식 패턴을 기반으로 값에서 발견된 첫 번째 일치 항목만 추출합니다.

전제 조건

  • 정규식 추출 작업을 적용하면 시스템에서 추출을 하는 중 첫 번째 정규식과 일치하는 필드 값을 설정합니다.
  • 지정된 정규식에 필드와 일치하는 항목이 없을 경우 빈 필드 값이 반환됩니다.
  • 학습 인스턴스에 업데이트된 (v.31) 패키지를 연결하지 않은 경우, 해당 규칙이 예상대로 작동하지 않을 수 있다는 경고 메시지가 표시됩니다.

이 기능은 추출된 데이터의 일부만 필요할 때 특히 유용합니다. 예컨대 긴 문자열에서 특정 숫자들을 추출하거나, 주소의 일부분을 분리하거나, 테이블 설명에서 특정 부분을 검색하는 등의 작업을 수행할 수 있습니다.

아래 예시의 경우 문서의 설명 열에서 공급업체 코드를 추출하려고 하면, 설명 열의 모든 설명 텍스트가 검색됩니다.

다음 이미지는 일반 추출 프로세스를 통해 얻은 공급업체 코드 값을 보여줍니다.

정규식 추출 작업을 적용하기 전

이 예시에서는 문서의 설명 열에서 공급업체 코드만 추출하는 방법을 살펴봅시다.

프로시저

  1. 필드 규칙 탭에서 규칙 추가를 클릭합니다.
  2. 공급업체 코드 필드에 대해 비어 있지 않음 조건을 지정합니다.
  3. 정규식 추출 작업 유형을 선택합니다.
  4. 정규식 패턴을 지정합니다. 예: Vendor Code: \d{6}
  5. 지정된 패턴에 대해 적절한 값을 제공하여 정규식 패턴을 테스트하고 업데이트를 클릭합니다. 예: Vendor Code: 381823.
    정규식 추출 작업 사용
  6. 처리를 클릭하여 문서를 처리합니다.
    지정된 정규식 패턴에 따라 설명 열에서 공급업체 코드 값만 추출됩니다.

    다음 이미지는 정규식 추출 작업을 적용한 후 얻은 공급업체 코드 값을 보여줍니다.

    정규식 추출 작업을 사용해 공급업체 코드 추출하기

    다음은 추출에 사용할 수 있는 몇 가지 정규식 패턴의 예시입니다.
    날짜 유형 정규식 패턴
    텍스트 또는 주소 \b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+.[A-Z|a-z]{2,}\b test@gmail.com
    \b\d{3}[-.]?\d{3}[-.]?\d{4}\b 123.456.7890 또는 123-456-7890
    숫자 ^\d{2}$ 12, 23, 99
    ^[0-9]+$ 123 또는 12434
    날짜 \b\d{1,2}[/-]\d{1,2}[/-]\d{4}\b 12/31/2022 또는 02/07/2012
    ^\d{2}/\d{2}/\d{4}$ 28/02/2222
    주: 이러한 정규식 패턴은 정해져 있지 않으며 유스케이스에 따라 달라질 수 있습니다.