Crear una instancia de aprendizaje usando CDE de Google

Una instancia de aprendizaje es una estructura que contiene información como el tipo de documento, el idioma y los campos que deben extraerse. Después de crear un procesador de extracción personalizado, debe crear una instancia de aprendizaje para extraer datos de los documentos.

Antes de empezar

  • Asegúrese de haber creado y entrenado con éxito un procesador del extractor de documentos personalizados (CDE) de Google.
  • Asegúrese de que su Control Room tenga la licencia del producto Espacio de trabajo de documentos (número de páginas).
  • Asegúrese de haber configurado BYOK. Para obtener más información, consulte Configure la opción BYOK (traiga su propia clave) para Google CDE.

Para integrar un nuevo procesador con Google Document AI, el paso crucial es la creación de una instancia de aprendizaje. Esto implica utilizar el proveedor como opción Google Document AI (definido por el usuario). Al crear una instancia de aprendizaje con esta opción, los usuarios pueden definir campos de formularios y tablas con nombres que coincidan con los presentes en el procesador.
Nota:
  • Actualmente, Google Document AI admite la extracción de una sola tabla.
  • La función de casillas de verificación (en modo de vista previa) podría dar lugar a una extracción incoherente para el campo de casillas de verificación, lo que podría producir resultados incoherentes. En estos casos, si el sistema no puede extraer con precisión el valor del campo de la casilla de verificación, se etiquetará como No encontrado.

Procedimiento

  1. Desde la página de inicio de Control Room, vaya a Administrar > Instancias de aprendizaje > Crear instancia de aprendizaje.
    La ventana Crear instancia de aprendizaje se abre en una nueva pestaña.
  2. Añada un nombre para la nueva instancia de aprendizaje que se va a crear.
  3. En el menú desplegable Tipo de documento, seleccione Definido por el usuario.
  4. En el menú Proveedor, seleccione Google Document AI (definido por el usuario).
  5. Haga clic en Siguiente.
  6. Seleccione la pestaña Campos de formulario o Campos de tabla.
  7. Cree nuevos campos con los mismos nombres que las etiquetas de esquema utilizadas en el procesador CDE de Google.
    Nota: Al crear nuevos campos, asegúrese de que sus nombres coincidan con las etiquetas de esquema utilizadas en el procesador de Google. Debe hacer coincidir los nombres de los campos del formulario y de la tabla.
  8. Haga clic en Crear.

    Cuando se crea una nueva instancia de aprendizaje, Control Room crea una carpeta con el mismo nombre que la instancia de aprendizaje de la carpeta Automatización > Documentar los procesos del espacio de trabajo.

    Puede agregar campos de formulario y tabla personalizados para instancias de aprendizaje de Google Document AI. Cuando quiera extraer datos de campos que Google no admite, puede crear campos personalizados. Con esta mejora, puede usar modelos preventrenados de Google junto con campos personalizados para la extracción de documentos.

    Tenga en cuenta los siguientes puntos cuando agregue campos personalizados para las instancias de aprendizaje de Google Document AI:
    • Puede agregar campos de formulario y tabla personalizados para tipos de documentos.
    • Puede editar y guardar los campos personalizados.
    • Hay disponibles expresiones regulares (RegEx) para los campos personalizados.
    • Puede agregar campos personalizados para las instancias de aprendizaje existentes que están asociadas con el paquete antiguo.

      En este caso, al guardar la instancia de aprendizaje, aparece una notificación para actualizar la versión del paquete.

    • Cuando un paquete no es compatible con varias funciones, aparece un mensaje correspondiente a la versión más alta del paquete.
    • Puede importar o exportar los campos personalizados hacia o desde el archivo .dw junto con la configuración.
    • Al extraer los campos personalizados, estos campos son compatibles con versiones anteriores de la versión más antigual del paquete.
      • Cuando una instancia de aprendizaje utiliza los campos personalizados, el paquete antiguo (v.29 y anterior) no devuelve un error y contiene valores vacíos para los campos personalizados.
      • De forma similar a los campos estándar, el paquete antiguo (v.29) aplica la normalización y las reglas para los campos personalizados, si corresponde.
  9. Actualice el bot de extracción de la instancia de aprendizaje con la cuenta de servicio y la URL del extremo del procesador.
    1. Abra el bot para la instancia de aprendizaje desde la opción Automatización, > Documentar los procesos del espacio de trabajo, > <LI name> > <Li name>_extractionbot.
    2. En la opción Configuración adicional, seleccione Google DocAI.
    3. En el campo Cuenta de servicio, seleccione el casillero de la bóveda de credenciales, la credencial y el atributo donde se almacena la clave de la cuenta de servicio. Para obtener más información, consulte Configure la opción BYOK (traiga su propia clave) para Google CDE.
    4. Copie la URL del extremo de predicción del procesador CDE de Google.
      Extremo de predicción en Google Document AI
    5. Pegue la URL copiada en la URL del punto de conexión para el procesador de documentos.

      URL del extremo de Document AI para el procesador de documentos

Qué hacer a continuación

Cargue los documentos en la instancia de aprendizaje, corrija los errores de validación y verifique los datos extraídos. Para obtener más información, consulte Documentos procesados en Automatización de documentos.