Dokumente bearbeiten in Document Automation

Beispielrechnungen hochladen, um die Lerninstanz zu testen, die extrahierten Daten zu überprüfen und Validierungsfehler zu beheben

Vorbereitungen

  • Falls Sie dies noch nicht getan haben, Erstellen einer Lerninstanz in Document Automation.
  • Stellen Sie sicher, dass Ihr Gerät mit dem Control Room verbunden ist: Bot-Agent installieren und Geräten registrieren
  • Wenn die Lerninstanz ein Google Document AI-Modell verwendet und Sie keine Google Document AI-Lizenzen über Automation Anywhere erworben haben, müssen Sie dem Extraktionsbot Ihre Google Document AI-Anmeldedaten zur Verfügung stellen. Siehe Konfigurieren des Schlüssels für Google Document AI.
  • Wenn die Lerninstanz ein Automation Anywhere-Modell verwendet, stellen Sie sicher, dass jede Datei maximal 50 MB groß ist.

    Wenn die Lerninstanz ein Google Document-KI-Modell verwendet, stellen Sie sicher, dass jede Datei maximal 20 MB groß ist und nicht mehr als 5 Seiten umfasst.

  • Stellen Sie sicher, dass die Beispieldokumente in den folgenden unterstützten Dokumenttypen vorliegen:
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIF
    • TIFF
  • Das Standardausgabeformat für die extrahierten Daten ist eine CSV-Datei. Um die Ausgabe in JSON zu ändern, siehe Ändern des Ausgabeformats von CSV zu JSON.

Führen Sie die folgenden Schritte aus, um Beispielrechnungen in die Lerninstanz hochzuladen und die Datenextraktionsfunktionen der Lerninstanz zu testen.

Prozedur

  1. Dokumenten zum Testen in die Lerninstanz hochladen:
    Sehen Sie sich diese Schritte in einem Video an:

    1. Klicken Sie auf Dokumente verarbeiten.
      Dokumente verarbeiten
    2. Klicken Sie im Fenster Dokumente verarbeiten auf Durchsuchen, um die hochzuladenden Dateien auszuwählen.
    3. Geben Sie im Feld Daten herunterladen nach den Dateipfad ein, unter dem die extrahierten Daten gespeichert werden sollen.
      Wenn der Prozess ausgeführt wird, erstellt er die folgenden drei Ordner im angegebenen Dateipfad:
      • Success: Enthält die extrahierten Daten im angegebenen Format (CSV oder JSON).
      • Invalid: Enthält als ungültig markierte Dokumente.
      • Failed: Enthält Dokumente, die nicht verarbeitet werden konnten.

      Sie können einen Pfad für einen Ausgabeordner angeben, der auf einer der folgenden Optionen basiert:

      • Option 1: Lokaler Gerätepfad, wenn Sie die Dokumentverarbeitung und -validierung auf demselben Gerät eingerichtet haben.

        Diese Option wird in der Regel verwendet, wenn Sie die Lerninstanz testen.

      • Option 2: Freigegebener Ordnerpfad, wenn Sie die verteilte Validierung auf separaten Geräten eingerichtet haben.

        Diese Option wird in der Regel für veröffentlichte Lerninstanzen verwendet. Beispiel: \\10.239.192.60\Sharepath\Output.

    4. Klicken Sie auf Dokumente verarbeiten.
      Das Fenster Bot Runner erscheint. Das Fenster wird ausgeblendet, wenn die Bearbeitung der Dokumente abgeschlossen ist. Aktualisieren Sie die Tabelle Lerninstanzen, um die aktualisierten Metriken zu sehen.

Wenn ein Wert neben dem Link Dokumente validieren steht, müssen Sie die Dokumentfelder manuell überprüfen. Andernfalls fahren Sie mit Schritt 3 fort.

  1. Beheben der Validierungsfehler
    1. Klicken Sie auf Dokumente validieren.
      Der Automation Co-Pilot-Task-Manager wird in einer neuen Registerkarte geöffnet, auf der sich das erste fehlgeschlagene Dokument in der Warteschlange befindet. Eine Einführung in die Nutzeroberfläche von Validator finden Sie unter Verwenden des Automation Co-Pilot-Task-Manager-Validators für Document Automation.
    2. Überprüfen Sie jedes Feld, um den Datentyp und den extrahierten Wert zu verifizieren.
      Document Automation unterstützt die folgenden Datentypen: Text, Zahl, Datum, Adresse und Kontrollkästchen
      Alternativ können Sie in der Dropdown-Liste auf der rechten Seite die Option Felder anzeigen, die validiert werden müssen auswählen.
      Anmerkung: Wenn Sie die Lerninstanz bearbeiten, während Dokumente auf ihre Validierung warten, klicken Sie auf Neu verarbeiten, um die Extraktion erneut zu starten.

      Die erneute Verarbeitung von Dokumenten hat keinen Einfluss auf die Metrik der hochgeladenen Dokumente.

    3. Aktualisieren Sie die Felder mit Fehlern.
      Klicken Sie auf das Feld oder ziehen Sie einen Rahmen um die Werte, die Sie extrahieren möchten.
      Bei von Automation Anywhere vortrainierten Modellen können Sie die Lerninstanz so konfigurieren, dass bestimmte Werte in einem Feld extrahiert und andere ignoriert werden. Weitere Informationen finden Sie unter Verbessern der Extraktionsgenauigkeit durch Validierung.
      • Wenn Sie ein Dokument überspringen möchten, ohne die Fehler zu korrigieren, klicken Sie auf Überspringen, um mit dem nächsten Dokument in der Validierungswarteschlange fortzufahren.
      • Um ein Dokument zu entfernen, das nicht verarbeitet werden kann, klicken Sie auf Als ungültig kennzeichnen.
    4. Nachdem Sie die notwendigen Korrekturen vorgenommen haben, klicken Sie auf Absenden, damit das Dokument fertig verarbeitet werden kann.
      Das nächste Dokument in der Warteschlange wird angezeigt. Wenn alle Dokumente korrigiert sind, zeigt das System eine Meldung an, dass keine weiteren Aufgaben mehr verfügbar sind.
    5. Schließen Sie die Registerkarte, um zur Seite Lerninstanzen zurückzukehren.
  2. Überprüfen der Ausgabeergebnisse:
    1. Öffnen Sie die Datei mit den extrahierten Daten im Ordner Success und überprüfen Sie die Ergebnisse, um sicherzustellen, dass sie Ihrem Anwendungsfall entsprechen.
      Die Microsoft-Formulare geben extrahierte Werte (OCR-Daten) im JSON-Format zurück, z. B. GUID_0-MSFormTableResult.json. Neben den extrahierten Dokumentdaten in der CSV-Datei <<GUID>>_FileName zeigt der Ordner Success auch die extrahierten Tabellendaten separat in einer weiteren CSV-Datei. Je nach Anzahl der Tabellen im Dokument können Sie verschiedene CSV-Dateien für jede Tabelle finden. Zum Beispiel: <<GUID_PAGE_NUMBER-Table_FILENAME_PAGENUMBER_TABLENUMBER.

      Mit separaten Tabellendaten können Sie die extrahierten Daten mit den Microsoft-Engine-Daten in der Datei GUID_0-MSFormTableResult.json vergleichen.

    2. Optional: Überprüfen Sie das Lerninstanz-Dashboard.
      Das Dashboard zeigt die Gesamtzahl der hochgeladenen Dokumente und die Anzahl der Dokumente, die validiert werden müssen.
Wenn die Lerninstanz wiederholt ein Feld nicht finden kann oder wenn Zeichen nicht richtig erkannt werden (z. B. der Buchstabe „l“, als Zahl „1“ extrahiert wird), können Sie versuchen, die OCR auf Google Vision OCR zu ändern.

Nächste Maßnahme

Erstellen Sie einen Bot, der Dokumente aus einem Quellordner zur Lerninstanz hochlädt. Veröffentlichen Sie dann die Lerninstanz-Assets (Prozess, Formular und Bots) im öffentlichen Repository, so dass die Lerninstanz im öffentlichen Modus verwendet werden kann, um Daten aus echten Dokumenten zu extrahieren, und damit Validatoren Dokumente manuell validieren können: Lerninstanz für die Produktion veröffentlichen