Criar uma instância de aprendizado usando o Google CDE

uma instância de aprendizado é uma estrutura que contém informações, tais como tipo de documento, idioma e os campos a serem extraídos. Após criar um processador de extração personalizado, você deve criar uma instância de aprendizado para extrair dados dos documentos.

Pré-requisitos

  • Certifique-se de ter criado e treinado com sucesso um processador Google Custom Document Extractor (CDE).
  • Certifique-se de que a Control Room tenha a licença do produto Document Workspace (número de páginas).
  • Verifique se configurou o BYOK. Para obter mais informações, consulte Configurar o traga sua própria chave (BYOK) para Google CDE.

Para integrar um novo processador com o IA do Google Document, a etapa crucial é a criação de uma instância de aprendizado. Isso envolve a utilização do provedor como opção Google Document AI (definida pelo usuário). Ao criar uma instância de aprendizado usando essa opção, os usuários podem definir campos do formulário e tabela com nomes correspondentes conforme apresentados no processador.
Nota:
  • Atualmente, o IA do Google Document oferece suporte à extração de tabela única.
  • O recurso de caixa de seleção (no modo de visualização) pode resultar em uma extração inconsistente para os campos de caixas de seleção, o que pode levar a resultados inconsistentes. Nesses casos, se o sistema não conseguir extrair com precisão o valor do campo da caixa de seleção, ele será rotulado como Não encontrado.

Procedimento

  1. Na página inicial da Control Room, navegue até Gerenciar > Instâncias de aprendizado > Criar instâncias de aprendizado.
    A janela Criar instância de aprendizado é aberta em uma nova guia.
  2. Acrescente um nome para a nova instância de aprendizado a ser criada.
  3. No menu suspenso Tipo de documento, selecione Definido pelo usuário.
  4. No menu Provedor, selecione Google Document AI (definido pelo usuário).
  5. Clique em Avançar.
  6. Selecione a guia Campos de formulário ou Campos de tabela.
  7. Crie novos campos com os mesmos nomes dos rótulos de esquema usados no processador do Google CDE.
    Nota: Ao criar novos campos, certifique-se de que seus nomes correspondam aos rótulos de esquema usados no processador do Google. Você precisa corresponder os nomes dos campos do formulário e da tabela.
  8. Clique em Create (Criar).

    Quando uma nova instância de aprendizagem é criada, a Control Room cria uma pasta com o mesmo nome da instância de aprendizado na pasta Automação > Processos do espaço de trabalho para documentos.

    Você pode adicionar campos personalizados de formulário e tabela para instâncias de aprendizado do IA do Google Document. Quando quiser extrair dados de campos não compatíveis com o Google, você pode criar campos personalizados. Com essa melhoria, você pode usar modelos pré-treinados do Google junto com campos personalizados para extração de documentos.

    Considere os seguintes pontos ao adicionar campos personalizados para instâncias de aprendizado de IA do Google Document:
    • Você pode adicionar campos personalizados de formulário e tabela para tipos de documento.
    • Você pode editar e salvar os campos personalizados.
    • Uma expressão regular (RegEx) está disponível para os campos personalizados.
    • Você pode adicionar campos personalizados para instâncias de aprendizado existentes que estão anexadas ao pacote antigo.

      Neste cenário, quando você salva a instância de aprendizado, uma notificação é exibida para atualizar a versão do pacote.

    • Quando um pacote não é compatível com vários recursos, é exibida uma mensagem correspondente à maior versão do pacote.
    • Você pode importar ou exportar os campos personalizados de ou para o arquivo .dw com configurações.
    • Quando você extrai os campos personalizados, esses campos são compatíveis com versões anteriores à versão mais antiga do pacote.
      • Quando uma instância de aprendizado usa os campos personalizados, o pacote antigo (v.29 e anteriores) não gera erro e contém valores vazios para campos personalizados.
      • Semelhante aos campos padrão, o pacote antigo (v.29) aplica normalização e regras para campos personalizados, se aplicável.
  9. Atualize o bot de extração da instância de aprendizado com a conta de serviço e URL do endpoint do processador.
    1. Abra o bot para a instância de aprendizagem em Automação > Processos do espaço de trabalho para documentos > <LI name> > <Li name>_extractionbot.
    2. Na opção Configurações adicionais, selecione Google DocAI.
    3. No campo Conta de serviço, escolha o cofre de credenciais, a credencial e o atributo onde a chave da conta de serviço está armazenada. Para obter mais informações, consulte Configurar o traga sua própria chave (BYOK) para Google CDE.
    4. Copie o URL do endpoint de previsão do processador Google CDE.
      Endpoint de previsão no Google Document AI
    5. Cole o URL copiado no URL do endpoint para o processador de documentos.

      URL do endpoint do Document AI para o processador de documentos

Próximas etapas

Carregue documentos para a instância de aprendizado, corrija erros de validação e verifique os dados extraídos. Para obter mais informações, consulte Processar documentos no Automação de documentos.