Como usar o tipo de documento não estruturado

Você pode usar o tipo de documento não estruturado para extrair dados de documentos não estruturados que não possuem um formato padrão, layout fixo, ou dados sem rótulos.

O modelo utiliza uma combinação de recursos de OCR com processamento de linguagem natural (PLN) e tecnologias de IA generativa para realizar análise semântica e extrair pares chave-valor e dados de tabelas de documentos não estruturados.

A seguir estão alguns exemplos de documentos não estruturados:

  • Documentos legais
  • Correspondência (incluindo e-mails)
  • Relatórios

Este modelo oferece a opção de selecionar entre os seguintes provedores de IA generativa:

OpenAI
Usar esta opção oferece as seguintes capacidades:
  • Lidar com uma ampla variedade de tarefas
  • Suporte a documentos em inglês e outros idiomas
  • Apoiar as capacidades multimodais
  • Capacidades de ajuste fino para determinados modelos
Anthropic
Usar esta opção oferece as seguintes capacidades:
  • Processamento eficiente de documentos grandes e não estruturados
  • Suporte a documentos em inglês e outros idiomas
  • Processamento mais rápido de documentos com extração de dados mais precisa

Os fornecedores de IA generativa oferecem inteligência generalizada, ou seja, não há treinamento específico da instância de aprendizado ou modelo necessário para diferentes tipos de documentos. Em vez disso, ao configurar uma instância de aprendizado, os usuários devem otimizar os prompts de consulta para identificar e definir como os dados devem ser extraídos dos documentos. Por exemplo, você pode definir os seguintes prompts de exemplo para recuperar dados específicos de contratos e acordos:

  • Qual é a data de vigência do contrato?
  • Qual é o número de referência?
  • Qual é a data de vigência do contrato? Retorne a resposta no formato MM/DD/AAAA.
  • Qual é o número de referência? Ele deve seguir este padrão AAA-12345.
  • Existem impostos não pagos a partir da data de vigência do acordo? Responda sim ou não.
    Nota: Se o prompt de consulta estiver vazio, os resultados da extração ou a saída estarão vazios. Às vezes, você pode querer manter um prompt vazio como um espaço reservado para dados quando seu fluxo de trabalho envolve o pós-processamento de dados. Por exemplo, se você quiser recuperar dados de um banco de dados e usá-los no campo para comparação.

Os campos de formulário e tabela definidos pelo sistema não estão disponíveis, pois o tipo de documento não estruturado não utiliza um formato padrão, layout fixo ou dados sem rótulos. Você deve definir todos os campos de formulário e tabela que exigem extração de dados ao configurar uma instância de aprendizado.

Para clientes que desejam usar instâncias privadas de Nuvem de modelos de IA generativa no Microsoft Azure, AWS ou GCP, eles podem se conectar a modelos em suas Nuvem privadas. Consulte Conecte seus próprios serviços de IA generativa.

Nota: A opção de feedback de validação não está disponível neste modelo.