구조화된 데이터 추출 action

새로운 구조화된 데이터 추출 action을 활용하여 HTML 기술 기반의 웹 애플리케이션에서 구조화된 데이터 블록을 추출하십시오. 실행 중에 Recorder는 선택된 객체와 유사한 객체를 식별하여 행으로 정렬하고, 해당 자식 요소들은 열로 매핑됩니다.

주:action은 자동화 빌드를 위해 Windows 플랫폼에서만 사용할 수 있습니다.

선행조건

브라우저 확장 프로그램(버전 4.1.0.0 이상)을 반드시 사용하십시오.

작업 매개변수

  • 레코더 > 구조화된 데이터 추출을 더블 클릭하거나 드래그합니다.
  • 객체를 캡처할 창을 지정합니다. 애플리케이션, 브라우저 또는 변수 탭에서 선택합니다.
    • 애플리케이션: 현재 활성 상태인 창 목록에서 선택합니다. 이 옵션은 Bot Creator 기기에서 열려 있는 모든 애플리케이션 및 브라우저 창의 목록을 표시합니다.
    • 브라우저: 지원되는 브라우저 탭 목록에서 Google Chrome 및 Chromium 기반 Microsoft Edge 브라우저를 선택하십시오.
    • 변수: 기존 창 변수를 선택하여 애플리케이션 창의 제목을 지정합니다.
  • 객체를 캡처할 창을 지정합니다.
  • 객체 캡처를 클릭합니다.

    선택한 창이 나타납니다.

  • 유사한 다른 요소가 있는 지정된 객체 위로 마우스를 이동합니다.

    개체 주위에 빨간색 직사각형 상자가 나타납니다.

    포착된 객체 주위의 직사각형 상자

  • 캡처할 객체를 클릭합니다.
  • 객체 속성 테이블을 검토합니다.
    중요사항: HTML ID, 경로와 같이 페이지마다 변경될 수 있는 속성들은 선택 해제하실 것을 권장합니다. 대신 DOMXPath 및 CSS 선택자와 같은 속성을 포함하십시오.
  • 데이터 추출 유형에서 시스템 또는 사용자 지정을 선택하십시오.
    • 시스템: 이 모드는 선택한 웹 페이지 섹션에서 반복되는 데이터 패턴을 자동으로 감지하고 추출합니다. 텍스트, 이미지, 하이퍼링크와 같은 공통 필드를 식별하고 이를 열로 구조화합니다. 이 모드는 제품 목록이나 테이블과 같은 표준 데이터 레이아웃을 각 열을 수동으로 구성하지 않고 빠르게 추출하고자 할 때 이상적입니다.
    • 사용자 정의: 사용자 정의 모드는 더 높은 정밀도가 필요한 복잡한 페이지나 비표준 페이지 레이아웃에 가장 적합합니다. 캡처된 요소에 많은 하위 요소가 포함되어 있지만, 선택된 몇 가지만 추출해야 할 때 특히 유용합니다. 또한, 사용자 정의 모드는 추출된 데이터가 고정된, 미리 정의된 열 수를 유지하도록 보장합니다.
      사용자 정의 추출 실행을 선택하여 캡처된 객체에서 모든 데이터 포인트를 추출합니다. 여기에는 DOMXPath 및 해당 샘플 값이 포함됩니다. 그런 다음 추출된 데이터를 수동으로 구성하거나 수정하고, XPath 식을 편집하며, 열 이름을 바꾸고, 필요에 따라 요소를 추가, 제거 또는 재배열할 수 있습니다. 사용자 정의 모드는 더 높은 정밀도가 필요한 복잡한 페이지나 비표준 페이지 레이아웃에 이상적입니다.
      중요사항: 애플리케이션 탭에서 변수를 사용하면 사용자 지정 추출을 실행할 때 오류가 발생할 수 있습니다. 애플리케이션 탭에서 드롭다운을 통해 특정 창을 선택한 후 을 저장하지 않고 사용자 지정 추출을 실행하는 것을 권장합니다.
  • 시스템 시간 초과 설정 필드에서 기본 또는 고급 중 하나를 선택합니다.
    • 기본: 객체 제어가 애플리케이션 창에 나타날 때까지 bot이 기다려야 하는 시간(초)을 지정하려면 시스템 응답 대기(초) 필드에 값을 입력합니다. 이 대기 시간에는 페이지 로드 및 객체 검색의 대기 시간이 모두 포함됩니다.
      주: 컨트롤이 애플리케이션 창에 나타날 때까지 bot이 기다려야 하는 지정된 시간 제한은 컨트롤이 있는 창이 있는 경우에만 적용됩니다. Recorder이 먼저 애플리케이션 창을 찾은 다음 해당 창 내부의 객체를 검색합니다. 창을 검색하는 기본 시간은 30초입니다. 따라서 대기 시간을 5초로 지정해도 창이 없으면 기본적으로 30초 동안 대기합니다.

      먼저 If > 창이 존재함 조건을 사용하고 대기 시간을 0초로 지정하고 애플리케이션 창이 존재하는지 확인하는 것이 좋습니다. 창이 존재하면 Recorder를 사용하고 대기 시간을 5초로 지정하고 bot을 실행하여 객체를 감지합니다.

    • 고급: 이 옵션을 사용하면 주식 웹사이트와 같이 최신 데이터를 지속적으로 로드하고 업데이트하는 웹사이트를 자동화할 수 있습니다. 이러한 웹사이트는 기술적으로 화면에 완전히 로드되지 않습니다. 이러한 경우 bot은 웹페이지가 완전히 로드될 때까지 기다릴 필요가 없으며 일정 시간이 지난 후 바로 웹페이지 자동화를 진행할 수 있습니다.

      브라우저 응답 대기(초) 필드에 bot이 브라우저가 로드될 때까지 대기해야 하는 시간(초)을 지정합니다. 다음 옵션 중 하나를 선택합니다.

      • 다음과 같이 봇을 중지하고 오류 메시지를 표시합니다. 지정된 시간 내에 웹페이지가 완전히 로드되지 않은 경우, 이 옵션을 선택하여 bot을 중지하고 오류 메시지를 표시합니다.
      • 다음과 같이 건너뛰고 객체로 이동합니다. 이 옵션을 선택하면 웹페이지가 완전히 로드되지 않은 경우에도 객체로 바로 이동하여 캡처할 수 있습니다.

      객체 제어가 애플리케이션 창에 나타날 때까지 bot이 기다려야 하는 시간(초)을 객체 응답 대기(초) 필드에 값을 입력합니다.

    • 페이지에 지연 로딩이 있는 경우: 데이터가 동적으로 로드되고 계속 자동으로 로드되는 페이지에 이 옵션을 선택하십시오. 예를 들어, 페이지를 스크롤할 때 항목이 로드됩니다.
      • 재시도 횟수: 새로운 데이터를 확인하기 위해 필요한 재시도 횟수를 입력하십시오.
      • 재시도 간 대기 시간: 자동화가 재시도 시도 사이에 대기할 시간을 초 단위로 입력하십시오.
  • 출력을 변수에 저장 필드에서 출력을 저장할 데이터 테이블 변수를 생성합니다.

    추출된 데이터는 데이터 테이블에 저장되며, 유사한 객체는 행으로 배열되고 해당 하위 요소는 열로 표시됩니다.

알려진 제품 동작

  • 추출 중에는 오직 텍스트 콘텐츠만 추출됩니다. img, input, select, button, scriptstyle과 같은 태그는 추출 중에 건너뜁니다.
  • 구조화된 데이터 추출 작업에서 생성된 데이터를 CSV 파일로 저장하기 위해 데이터 테이블 > 파일에 쓰기 작업을 사용할 경우 인코딩으로 반드시 UTF-8을 선택하십시오.
  • 섀도우 돔 내의 유사한 요소는 지원되지 않습니다.
  • 원래 캡처된 객체를 사용할 수 없는 경우 시스템이 객체를 찾을 수 없습니다.
  • 보안 기록은 현재 지원되지 않습니다.

유스케이스

아래는 구조화된 데이터 추출을 테스트할 수 있는 일부 웹사이트입니다.