Crear una instancia de aprendizaje
- Última actualización2024/07/31
Crear una instancia de aprendizaje
Crear una instancia de aprendizaje y cargar documentos de muestra para entrenamiento. En este paso, se definen los elementos de datos para un solo tipo de documento, como una factura u orden de compra, y los campos que se quieren extraer.
Antes de empezar
- Cada documento es un archivo independiente. Por ejemplo, si ha descargado un correo electrónico y sus archivos adjuntos en un solo PDF, debe separar el cuerpo del correo electrónico de los archivos adjuntos. Consulte Utilice la acción Dividir documentos.
- Los documentos están en uno de los siguientes tipos de archivos admitidos:
- JPG
- JPEG
- PNG
- TIFF
- Utilice documentos con un valor de resolución de al menos 300 puntos por pulgada (ppp).
- En la validación, puede cargar un máximo de 150 documentos de 10 MB de tamaño por archivo por instancia de aprendizaje.
- En la producción, puede cargar archivos con un máximo de 50 MB de tamaño por documento. Sin embargo, la cantidad máxima de documentos permitida por instancia de aprendizaje depende de la licencia.
- No hay limitaciones para la cantidad de páginas por documento en un OCR de pdfbox.
- Puede cargar 60 páginas por documento en un OCR basado en imágenes.
- Puede cargar archivos de hasta 12 MB. Puede cargar documentos adicionales después de crear la instancia de aprendizaje.
- Los nombres de archivos de los documentos que cargue no deben comenzar con caracteres especiales, como el guion (-).
- Si el texto que desea extraer comienza con alguno de los siguientes caracteres especiales: ‘# : , \ ` '', el IQ Bot ignora los caracteres especiales al capturar el texto.
- Por el momento, con Tesseract4 OCR, existe una limitación conocida que restringe la cantidad de páginas por documento a menos de 60 páginas.
- La informática confidencial de Azure permite a las organizaciones cargar datos cifrados en un almacenamiento seguro, como carpetas privadas en una máquina virtual. Si carga documentos desde estas carpetas seguras a IQ Bot, estos se trasladan al estado Sin clasificar ya que la extracción de datos no es compatible con estos documentos.
Cuando comience con una colección de documentos para insertar en un proceso digital, probablemente tenga una mezcla de tipos de documentos, formatos y orientaciones. Una factura, por ejemplo, tiene un conjunto consistente de elementos de datos, mientras que una orden de compra contiene un conjunto diferente de elementos de datos. Debe crear una instancia de aprendizaje diferente para cada uno de estos tipos de documentos, siguiendo estos pasos:
Procedimiento
Qué hacer a continuación
Después de que el clasificador termine de clasificar los documentos, se le redirige al Diseñador, donde entrenará a los bots para que extraigan datos de cada documento de muestra. Entrenar una instancia de aprendizaje.