Desative a opção PDFBox
- Última atualização2021/04/20
Desative a opção PDFBox
A opção PDFBox é habilitada por padrão. Desative a opção quando estiver treinando documentos PDF híbridos, contendo imagens e texto.
A opção PDFBox funciona melhor apenas com documentos totalmente digitais. Ao usar documentos híbridos contendo imagens e texto, nossa recomendação é desabilitar a opção PDFBox para melhor classificação de documentos.
Nota: A opção PDFBox é habilitada no sistema por padrão. Certifique-se de que o PDFBox seja mantido ativado apenas se você planeja processar documentos digitais, caso contrário, o processamento falhará.
Se o PDFBox estiver ativado, você pode processar os seguintes tipos de PDF:
- O PDF vetorial e híbrido pode ser processado usando o PDFBox
- O PDF raster pode ser processado primeiro usando o PDFBox e, se nenhum segmento for encontrado, então o PDF será processado novamente usando OCR da imagem do documento
Há duas maneiras de desabilitar/ativar a opção PDFBox no IQ Bot:
- Diretamente na interface do usuário, durante a criação de uma instância de aprendizado. Na página Criar nova instância de aprendizado, vá para e desative/ative a caixa de seleção Meus documentos PDF não têm imagens.
- No arquivo Setting.txt, descrito a seguir: