구조화된 데이터 추출 action
- 최종 업데이트2026/02/20
구조화된 데이터 추출 action
새로운 구조화된 데이터 추출 action을 활용하여 HTML 기술 기반의 웹 애플리케이션에서 구조화된 데이터 블록을 추출하십시오. 실행 중에 Recorder는 선택된 객체와 유사한 객체를 식별하여 행으로 정렬하고, 해당 자식 요소들은 열로 매핑됩니다.
주: 이 action은 자동화 빌드를 위해 Windows 플랫폼에서만 사용할 수 있습니다.
선행조건
브라우저 확장 프로그램(버전 4.1.0.0 이상)을 반드시 사용하십시오.
작업 매개변수
- 을 더블 클릭하거나 드래그합니다.
- 객체를 캡처할 창을 지정합니다. 애플리케이션, 브라우저 또는 변수 탭에서 선택합니다.
- 애플리케이션: 현재 활성 상태인 창 목록에서 선택합니다. 이 옵션은 Bot Creator 기기에서 열려 있는 모든 애플리케이션 및 브라우저 창의 목록을 표시합니다.
- 브라우저: 지원되는 브라우저 탭 목록에서 Google Chrome 및 Chromium 기반 Microsoft Edge 브라우저를 선택하십시오.
- 변수: 기존 창 변수를 선택하여 애플리케이션 창의 제목을 지정합니다.
- 객체를 캡처할 창을 지정합니다.
-
객체 캡처를 클릭합니다.
선택한 창이 나타납니다.
- 유사한 다른 요소가 있는 지정된 객체 위로 마우스를 이동합니다.
개체 주위에 빨간색 직사각형 상자가 나타납니다.
- 캡처할 객체를 클릭합니다.
-
객체 속성 테이블을 검토합니다.중요사항: HTML ID, 경로와 같이 페이지마다 변경될 수 있는 속성들은 선택 해제하실 것을 권장합니다. 대신 DOMXPath 및 CSS 선택자와 같은 속성을 포함하십시오.
-
데이터 추출 유형에서 시스템 또는 사용자 지정을 선택하십시오.
- 시스템: 이 모드는 선택한 웹 페이지 섹션에서 반복되는 데이터 패턴을 자동으로 감지하고 추출합니다. 텍스트, 이미지, 하이퍼링크와 같은 공통 필드를 식별하고 이를 열로 구조화합니다. 이 모드는 제품 목록이나 테이블과 같은 표준 데이터 레이아웃을 각 열을 수동으로 구성하지 않고 빠르게 추출하고자 할 때 이상적입니다.
-
사용자 정의: 사용자 정의 모드는 더 높은 정밀도가 필요한 복잡한 페이지나 비표준 페이지 레이아웃에 가장 적합합니다. 캡처된 요소에 많은 하위 요소가 포함되어 있지만, 선택된 몇 가지만 추출해야 할 때 특히 유용합니다. 또한, 사용자 정의 모드는 추출된 데이터가 고정된, 미리 정의된 열 수를 유지하도록 보장합니다.사용자 정의 추출 실행을 선택하여 캡처된 객체에서 모든 데이터 포인트를 추출합니다. 여기에는 DOMXPath 및 해당 샘플 값이 포함됩니다. 그런 다음 추출된 데이터를 수동으로 구성하거나 수정하고, XPath 식을 편집하며, 열 이름을 바꾸고, 필요에 따라 요소를 추가, 제거 또는 재배열할 수 있습니다. 사용자 정의 모드는 더 높은 정밀도가 필요한 복잡한 페이지나 비표준 페이지 레이아웃에 이상적입니다.중요사항: 애플리케이션 탭에서 변수를 사용하면 사용자 지정 추출을 실행할 때 오류가 발생할 수 있습니다. 애플리케이션 탭에서 드롭다운을 통해 특정 창을 선택한 후 봇을 저장하지 않고 사용자 지정 추출을 실행하는 것을 권장합니다.
-
시스템 시간 초과 설정 필드에서 기본 또는 고급 중 하나를 선택합니다.
-
기본: 객체 제어가 애플리케이션 창에 나타날 때까지 bot이 기다려야 하는 시간(초)을 지정하려면 시스템 응답 대기(초) 필드에 값을 입력합니다. 이 대기 시간에는 페이지 로드 및 객체 검색의 대기 시간이 모두 포함됩니다.주: 컨트롤이 애플리케이션 창에 나타날 때까지 bot이 기다려야 하는 지정된 시간 제한은 컨트롤이 있는 창이 있는 경우에만 적용됩니다. Recorder이 먼저 애플리케이션 창을 찾은 다음 해당 창 내부의 객체를 검색합니다. 창을 검색하는 기본 시간은 30초입니다. 따라서 대기 시간을 5초로 지정해도 창이 없으면 기본적으로 30초 동안 대기합니다.
먼저 조건을 사용하고 대기 시간을 0초로 지정하고 애플리케이션 창이 존재하는지 확인하는 것이 좋습니다. 창이 존재하면 Recorder를 사용하고 대기 시간을 5초로 지정하고 bot을 실행하여 객체를 감지합니다.
-
고급: 이 옵션을 사용하면 주식 웹사이트와 같이 최신 데이터를 지속적으로 로드하고 업데이트하는 웹사이트를 자동화할 수 있습니다. 이러한 웹사이트는 기술적으로 화면에 완전히 로드되지 않습니다. 이러한 경우 bot은 웹페이지가 완전히 로드될 때까지 기다릴 필요가 없으며 일정 시간이 지난 후 바로 웹페이지 자동화를 진행할 수 있습니다.
브라우저 응답 대기(초) 필드에 bot이 브라우저가 로드될 때까지 대기해야 하는 시간(초)을 지정합니다. 다음 옵션 중 하나를 선택합니다.
- 다음과 같이 봇을 중지하고 오류 메시지를 표시합니다. 지정된 시간 내에 웹페이지가 완전히 로드되지 않은 경우, 이 옵션을 선택하여 bot을 중지하고 오류 메시지를 표시합니다.
- 다음과 같이 건너뛰고 객체로 이동합니다. 이 옵션을 선택하면 웹페이지가 완전히 로드되지 않은 경우에도 객체로 바로 이동하여 캡처할 수 있습니다.
객체 제어가 애플리케이션 창에 나타날 때까지 bot이 기다려야 하는 시간(초)을 객체 응답 대기(초) 필드에 값을 입력합니다.
-
페이지에 지연 로딩이 있는 경우: 데이터가 동적으로 로드되고 계속 자동으로 로드되는 페이지에 이 옵션을 선택하십시오. 예를 들어, 페이지를 스크롤할 때 항목이 로드됩니다.
- 재시도 횟수: 새로운 데이터를 확인하기 위해 필요한 재시도 횟수를 입력하십시오.
- 재시도 간 대기 시간: 자동화가 재시도 시도 사이에 대기할 시간을 초 단위로 입력하십시오.
-
기본: 객체 제어가 애플리케이션 창에 나타날 때까지 bot이 기다려야 하는 시간(초)을 지정하려면 시스템 응답 대기(초) 필드에 값을 입력합니다. 이 대기 시간에는 페이지 로드 및 객체 검색의 대기 시간이 모두 포함됩니다.
-
출력을 변수에 저장 필드에서 출력을 저장할 데이터 테이블 변수를 생성합니다.
추출된 데이터는 데이터 테이블에 저장되며, 유사한 객체는 행으로 배열되고 해당 하위 요소는 열로 표시됩니다.
알려진 제품 동작
- 추출 중에는 오직 텍스트 콘텐츠만 추출됩니다. img, input, select, button, script 및 style과 같은 태그는 추출 중에 건너뜁니다.
- 구조화된 데이터 추출 작업에서 생성된 데이터를 CSV 파일로 저장하기 위해 작업을 사용할 경우 인코딩으로 반드시 UTF-8을 선택하십시오.
- 섀도우 돔 내의 유사한 요소는 지원되지 않습니다.
- 원래 캡처된 객체를 사용할 수 없는 경우 시스템이 객체를 찾을 수 없습니다.
- 보안 기록은 현재 지원되지 않습니다.
유스케이스
아래는 구조화된 데이터 추출을 테스트할 수 있는 일부 웹사이트입니다.