Crear una instancia de aprendizaje

Crear una instancia de aprendizaje y cargar documentos de muestra para entrenamiento. En este paso, se definen los elementos de datos para un solo tipo de documento, como una factura u orden de compra, y los campos que se quieren extraer.

Antes de empezar

Asegúrese de que los documentos de muestra cumplan los siguientes requisitos:
  • Cada documento es un archivo independiente. Por ejemplo, si ha descargado un correo electrónico y sus archivos adjuntos en un solo PDF, debe separar el cuerpo del correo electrónico de los archivos adjuntos. Consulte Utilice la acción Dividir documentos.
  • Los documentos están en uno de los siguientes tipos de archivos admitidos:
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIFF
  • Utilice documentos con un valor de resolución de al menos 300 puntos por pulgada (ppp).
  • En la validación, puede cargar un máximo de 150 documentos de 10 MB de tamaño por archivo por instancia de aprendizaje.
  • En la producción, puede cargar archivos con un máximo de 50 MB de tamaño por documento. Sin embargo, la cantidad máxima de documentos permitida por instancia de aprendizaje depende de la licencia.
  • No hay limitaciones para la cantidad de páginas por documento en un OCR de pdfbox.
  • Puede cargar 60 páginas por documento en un OCR basado en imágenes.
  • Puede cargar archivos de hasta 12 MB. Puede cargar documentos adicionales después de crear la instancia de aprendizaje.
  • Los nombres de archivos de los documentos que cargue no deben comenzar con caracteres especiales, como el guion (-).
  • Si el texto que desea extraer comienza con alguno de los siguientes caracteres especiales: ‘# : , \ ` '', el IQ Bot ignora los caracteres especiales al capturar el texto.
Nota:
  • Por el momento, con Tesseract4 OCR, existe una limitación conocida que restringe la cantidad de páginas por documento a menos de 60 páginas.
  • La informática confidencial de Azure permite a las organizaciones cargar datos cifrados en un almacenamiento seguro, como carpetas privadas en una máquina virtual. Si carga documentos desde estas carpetas seguras a IQ Bot, estos se trasladan al estado Sin clasificar ya que la extracción de datos no es compatible con estos documentos.

Cuando comience con una colección de documentos para insertar en un proceso digital, probablemente tenga una mezcla de tipos de documentos, formatos y orientaciones. Una factura, por ejemplo, tiene un conjunto consistente de elementos de datos, mientras que una orden de compra contiene un conjunto diferente de elementos de datos. Debe crear una instancia de aprendizaje diferente para cada uno de estos tipos de documentos, siguiendo estos pasos:

Procedimiento

  1. Vaya a INSTANCIAS DE APRENDIZAJE y haga clic en la opción Nueva instancia.
  2. En la pantalla Crear nueva instancia de aprendizaje, introduzca la siguiente información:
    1. Nombre de la instancia: Escriba un nombre de usuario único.
      IQ Bot versión A360.21 y anteriores no permite duplicar los nombres de las instancias de aprendizaje. Incluso si elimina una instancia de aprendizaje, el nombre no se podrá reutilizar. A partir de IQ Bot versión A360.22, es posible crear nombres de instancia de aprendizaje duplicados, así como reutilizar el nombre de una instancia de aprendizaje eliminada.
    2. Opcional: Descripción: Ingrese una descripción.
    3. Tipo de documento: Seleccione el tipo de documento en la lista desplegable.
      No elija formularios estándar como Tipo de documento cuando crea la instancia de aprendizaje. Según la opción que seleccione, aparece un conjunto predefinido de campos de formulario y tabla para el tipo de dominio. Por ejemplo, si selecciona Facturas, aparecen los formularios y tablas comunes de una factura.
      Nota: Si desea crear un dominio para utilizarlo específicamente para esta instancia de aprendizaje, seleccione Tipo de documento > Otro e introduzca un nombre de dominio. En los próximos pasos, personalizará el dominio.

      Para obtener más información sobre la creación de un dominio personalizado, vea el siguiente video:

      Si desea crear un dominio para utilizarlo en más de una instancia de aprendizaje y tiene los permisos de acceso necesarios, puede trabajar con la asistencia de Automation Anywhere para crear un dominio personalizado. Consulte Dominios personalizados en IQ Bot para obtener más información.

    4. Idioma principal de los documentos: Utilice el menú desplegable para seleccionar un idioma para la instancia de aprendizaje.
      Si desea crear dominios personalizados en otros idiomas y acceder a los 190 idiomas compatibles con IQ Bot, contacte Automation Anywhere al equipo de soporte.
      Importante: Si no puede ver todos los idiomas en la interfaz de IQ Bot, solucione el problema: Unable to extract data from Multiple languages in a document (A-People login required)
    5. Cargue sus documentos: Haga clic en la opción Explorar para cargar los documentos de muestra.
  3. Seleccione o anule la selección de campos en las secciones Campos comunes del formulario y Campos comunes de tabla/secciones repetidas.
    Los campos de formulario aparecen una sola vez en un documento, como la fecha o el número de la factura. Los campos de tabla son campos que se repiten en todo el documento, como el total o la cantidad del artículo.
    Para ver todos los campos posibles, haga clic en Campos adicionales del formulario o Campos adicionales de tabla/sección repetida.
  4. Opcional: Añada campos adicionales ingresando el nombre del campo en la sección Campos adicionales del formulario o Campos adicionales de tabla/sección repetida.
    Siga las convenciones de nomenclatura al ingresar un nombre en el campo Agregar campos (opcional):
    • Los nombres de los campos solo pueden comenzar con caracteres alfabéticos (A-Z y a-z).
    • Los nombres de los campos solo pueden incluir caracteres alfanuméricos y espacios.
    • El nombre del campo no puede terminar con un espacio.
  5. Reconocimiento óptico de caracteres: Seleccione el motor de OCR requerido.
  6. Opcional: Desmarque la casilla de verificación Mis documentos PDF no tienen imágenes. Para obtener más información, consulte Deshabilite la opción PDFBox
    Cuando esta casilla de verificación está seleccionada, IQ Bot utiliza el OCR de PDFBox para procesar los documentos PDF; los documentos que no son PDF son procesados por el OCR que seleccionó en el paso anterior.
  7. Detección automática de casillas de verificación: Seleccione la casilla de verificación Detectar casillas de verificación para habilitar esta característica.
    La selección de esta opción permite que IQ Bot detecte automáticamente las casillas de verificación en un documento. Sin embargo, podría aumentar el tiempo de procesamiento de los documentos.
  8. Haga clic en la opción Crear instancia y analizar para crear la instancia de aprendizaje.
    El sistema analizará y clasificará los documentos de entrenamiento en grupos lógicos según la identificación de los campos y mostrará sus detalles en la pestaña Instancia de aprendizaje > Resumen.
Cuando se crea una nueva instancia de aprendizaje, los documentos de muestra que usted cargó se analizan y se clasifican en grupos basados en las características del documento. Para obtener más información, consulte Sobre el Clasificador.

Qué hacer a continuación

Después de que el clasificador termine de clasificar los documentos, se le redirige al Diseñador, donde entrenará a los bots para que extraigan datos de cada documento de muestra. Entrenar una instancia de aprendizaje.