Uso del clasificador de capacitación acción

Utilice la acción Clasificador de capacitación para crear un archivo de modelo que utiliza la acción Clasificar para ordenar los documentos en las categorías requeridas para la entrada.

Antes de empezar

Antes de crear el bot, recopile documentos de ejemplo y clasifíquelos en carpetas. Asegúrese de que el conjunto de documentos de ejemplo cumpla los siguientes requisitos:

  • Tiene, al menos, dos categorías.
  • Un mínimo de 15 páginas por categoría (20 páginas recomendadas).
  • Divida los documentos PDF de entrada que tienen varias páginas en documentos PDF de una sola página. Consulte Utilice la acción Dividir documentos.

    Por ejemplo, si tiene un documento PDF de tres páginas, divídalo en tres documentos PDF de una sola página.

Si no se cumplen estos requisitos mínimos, se muestra un mensaje de error durante el tiempo de ejecución bot.

Cada carpeta tiene una selección de documentos que son una muestra de los documentos que procesará la instancia de aprendizaje asociada. La acción Clasificador de capacitación leerá los archivos de las carpetas y creará un modelo con base en los documentos almacenados dentro de cada carpeta.
Nota: Como OCR Motor ABBYY FineReader fue regresado a la versión 12.2 desde la 12.4, los archivos .icmf más antiguos no pueden utilizarse para reentrenar modelos en Automation 360 v.24 del paquete Clasificador de documentos. Si desea añadir más categorías o más archivos a las categorías existentes, debe crear un nuevo modelo.

Procedimiento

  1. En la paleta Acciones, haga doble clic en la acción Entrenar clasificador o arrástrela desde el paqueteClasificador de documentos.
  2. Haga clic en Entrenar para seguir creando un nuevo archivo de modelo.
  3. Opcional: Si tiene un archivo de modelo existente, haga clic en Reentrenar.
    1. Utilice el campo Ruta de la carpeta de entrenamiento para seleccionar una ruta de carpeta existente en el tabulador Carpeta del escritorio.
      Alternativamente, haga clic en el tabulador Variable para introducir manualmente una ruta de la carpeta de entrenamiento existente.
    2. Use el campo Ruta de zip existente para seleccionar la ruta de archivo de la carpeta .zip desde el tabulador Archivo de Control Room o Archivo de escritorio.
      Alternativamente, haga clic en el tabulador Variable para introducir manualmente la ruta de la carpeta .zip.
      Nota: Cuando se entrenan documentos, se crea una carpeta .zip que contiene archivos .icmf, .data y .properties. Asegúrese de cargar la carpeta .zip entera para reentrenar un archivo de modelo existente.
  4. Seleccione la ruta de la carpeta de entrada desde Carpeta del escritorio o Variable.

    La ruta de la carpeta de entrada debe tener subdirectorios con los nombres que corresponden a la categoría de los documentos sobre los que desea capacitar al clasificador. Por ejemplo, si tiene documentos relacionados con ventas, la ruta de la carpeta de entrada debe tener subcarpetas como Factura y Orden de compra.

  5. Opcional: Si selecciona Archivo de escritorio, haga clic en Explorar para cambiar la ruta de archivo predeterminada.
  6. Ingrese un nombre para el archivo de modelo en el campo Nombre de modelo.
  7. Use el campo Ruta de salida de modelo para seleccionar el directorio para el archivo de modelo de salida.
  8. Opcional: Configure la siguiente CONFIGURACIÓN AVANZADA:
    1. Optimización de capacitación: Utilice el menú desplegable para seleccionar el tipo de optimización de capacitación.
      • Precisión: seleccione esta opción cuando desee que su modelo de entrenamiento sea preciso, pero pueda omitir algunos documentos.
      • Recuperar: seleccione esta opción cuando desee que el modelo de entrenamiento encuentre todos los casos relevantes dentro de un conjunto de datos.
      • Puntuación F1: está seleccionada de forma predeterminada y es la configuración recomendada, ya que combina la optimización del entrenamiento de Precisión y Recuperar.

      Puntuación F1 está seleccionada de forma predeterminada. Precisión y Recuperar.

    2. Tipo de clasificación: Utilice el menú desplegable para seleccionar las características que desea incluir, como texto, imagen o ambos.

      Texto e imagen está seleccionada de forma predeterminada. Si selecciona Texto o Texto e imagen, la lista de idiomas compatibles se muestra en el menú desplegable Idioma de reconocimiento.

    3. Configuración de OCR: Las opciones Extraer todos los bloques de texto y Extraer texto de las imágenes están habilitadas de forma predeterminada.

      Con la opción Configuración de OCR habilitada de forma predeterminada, OCR tarda más tiempo en extraer el contenido. Esto garantiza que los documentos de calidad relativamente baja también se maneje con base en las entradas de OCR.

  9. Haga clic en Guardar y Ejecutar.
    Cuando se vuelve a entrenar un modelo existente, se recuperan los datos ya entrenados y se combinan con nuevos datos generados a partir de las características de texto o diseño de los documentos de entrada. Después de esto, debe entrenar el modelo de aprendizaje automático desde cero. Este método permite ahorrar el tiempo necesario para volver a generar los datos de texto o de diseño de los documentos ya formados. Sin embargo, la parte más costosa desde el punto de vista informático es el entrenamiento del modelo de aprendizaje automático, por lo que se espera que el método de reentrenamiento requiera mucho tiempo. En caso de que esto se convierta en una limitación, le recomendamos que cree archivos de modelo adicionales y los utilice para el entrenamiento y la clasificación adicionales.
    El modelo se crea como un archivo .icmf en el directorio especificado en el campo Ruta de salida de modelo.

Qué hacer a continuación

Después de crear el modelo, cree un bot para clasificar los documentos de entrada. Consulte Cómo usar Clasificar acción