PDF에서 텍스트 추출 작업 사용

PDF 파일에서 텍스트를 추출하고 텍스트 추출 작업을 사용하여 텍스트 파일로 저장합니다.

중요사항:
  • 올바른 글자체가 PDF 파일에 삽입되지 않은 경우, 텍스트 추출 작업은 해당 텍스트를 올바르게 추출하지 않습니다.
  • 작업을 사용하여 PDF 파일에서 텍스트를 추출하는 경우 해당 텍스트가 단일 라인 데이터이지만 PDF 파일에 두 라인의 동일한 데이터가 있다면 데이터가 두 라인으로 표시될 수 있습니다.
주: 20개의 양식 필드가 포함된 PDF에서 필드를 추출할 때는 양식 필드가 없는 PDF보다 처리 시간이 30~40% 더 오래 걸릴 수 있습니다.

프로시저

PDF 파일에서 텍스트를 추출하려면 다음 단계를 수행합니다.

  1. 해당 작업 팔레트의 PDF 패키지에서 텍스트 추출 작업을 더블 클릭하거나 드래그합니다.
  2. PDF 경로에서, 다음 옵션 중 하나를 선택하여 PDF 위치를 지정합니다.
    • Control Room 파일: Control Room의 폴더에서 사용 가능한 PDF 파일을 선택할 수 있습니다.
    • 데스크톱 프로필: 기기에서 이용 가능한 PDF 파일을 선택할 수 있습니다.
    • 변수: PDF 파일의 위치를 포함하는 파일 변수를 지정할 수 있습니다.
  3. 옵션: 사용자 비밀번호 또는 소유자 비밀번호 필드에 암호화된 PDF 파일에 대한 액세스를 제한하기 위한 비밀번호를 입력합니다.
    • 사용자 비밀번호: 사용자가 암호화된 PDF 파일에서 특정 작업을 수행할 수 있도록 허용합니다.
    • 소유자 비밀번호: 사용자가 비밀번호를 이용하여 파일을 열 수 있도록 허용합니다.
  4. 텍스트 유형 필드에서 다음 옵션 중 하나를 선택합니다.
    • 일반 텍스트로: 텍스트를 추출하여 텍스트 파일에 복사합니다.

      이 작업은 PDF 파일에서 텍스트를 복사하여 텍스트 파일에 붙여넣는 것과 비슷합니다.

    • 정형 텍스트: PDF 파일에서 추출한 텍스트의 원래 형식을 유지합니다.
      데이터 손실 줄이기 옵션을 선택하여 문자의 중복을 최소화하면서 전체 텍스트를 추출할 수 있습니다. 이 기능을 사용하면 다른 문자와 겹치는 문자 수가 줄어듭니다.
      주: 이 옵션을 선택하여 텍스트를 추출하면 추출된 텍스트에 추가 공백 문자가 포함될 수 있습니다. 작업 중에서교체 또는 다듬기와 같은 작업을 선택하여(문자열 패키지에서) 추출한 PDF 문서에서 이러한 문제를 해결할 수 있습니다.
  5. 페이지 범위 필드에서 다음 옵션 중 하나를 선택합니다.
    • 모든 페이지: PDF 파일의 모든 페이지를 이미지로 저장할 수 있습니다.
    • 페이지: 이미지로 저장할 페이지의 페이지 번호를 입력할 수 있습니다.
  6. 텍스트 파일로 데이터 내보내기 필드에서, 텍스트 파일의 이름과 저장 위치를 지정합니다.
    주: 텍스트 파일의 이름에 .txt 확장명을 포함해야 합니다. 예를 들어, 해당 파일 이름이 June_Quarter_report인 경우 txt 확장명을 붙이면 June_Quarter_report.txt가 됩니다.
  7. 동일한 이름으로 된 파일을 덮어쓰려면 동일한 이름을 가진 파일 덮어쓰기 확인란을 선택합니다.
    주: 이 옵션이 선택되지 않고, 지정된 위치에서 이 같은 이름의 파일을 발견하면 이 실패한 것이 됩니다.
  8. 옵션: PDF 속성을 사전 변수에 지정 목록에서 파일 속성을 유지할 사전 변수를 선택합니다.
    자세한 내용은 PDF 속성을 위한 사전 변수 사용 항목을 참조하십시오.
  9. 저장을 클릭합니다.