上传发票样本以测试学习实例,验证提取的数据并修复验证错误。

先决条件

  • 如果您尚未执行此操作,在 Document Automation 中创建学习实例
  • 请确认您的设备已连接到 Control Room安装 Bot Agent 并注册窗口设备
  • 如果学习实例使用 Google Document AI 模型并且您没有通过 Automation Anywhere 购买 Google Document AI 许可证,您必须向提取机器人提供您的 Google Document AI 凭据。 请参阅 为 Google Document AI 配置密钥
  • 如果学习实例使用 Automation Anywhere 模型,请确保每个文件大小不超过 50 MB。

    如果学习实例使用的是 Google Document AI 模型,请确保每个文件不超过 20 MB,最多包含 5 页。

  • 确保文档样本使用以下支持的文档类型之一:
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIF
    • TIFF
  • 提取数据的默认输出格式是 CSV 文件。 要将输出更改为 JSON,请参阅 将输出格式由 CSV 更改为 JSON

执行以下步骤,将示例发票上传到学习实例,以测试学习实例的数据提取功能。

过程

  1. 上传文档以测试学习实例:
    请观看视频,了解以下步骤:

    1. 单击处理文档
      处理文档
    2. 处理文档窗口中,单击浏览选择要上传的文件。
      注: 文件名超过 149 个字符的文档在处理过程中会显示错误。 确保文件名保持在 150 个字符的限制以内。
    3. 将数据下载到字段中,输入将保存提取数据的文件路径。
      当该过程运行时,它会在提供的文件路径中创建以下三个文件夹:
      • 成功: 包含以指定格式(CSV 或 JSON)提取的数据。
      • 无效: 存放标记为无效的文档。
      • 失败: 存放无法处理的文档。

      您可以根据以下选项之一提供输出文件夹路径:

      • 选项 1: 本地设备路径(如果您在同一台设备上设置了文档处理和验证)。

        此选项通常在测试学习实例时使用。

      • 选项 2: 共享文件夹路径(如果您在不同的设备上设置了分布式验证)。

        此选项通常用于已发布的学习实例。 例如,\\10.239.192.60\Sharepath\Output

    4. 单击处理文档
      将显示 Bot Runner 窗口。 当文件处理完成时,窗口会消失。 刷新学习实例表以查看更新的度量标准。

如果验证文档链接旁边有一个值,则必须手动验证文档字段。 否则,请继续执行步骤 3。

  1. 修复验证错误
    1. 单击验证文档
      Automation Co-Pilot 任务管理器在新选项卡中打开,其中显示队列中第一个失败的文档。 有关验证器用户界面的介绍,请参阅 通过 Automation Co-Pilot 验证器验证文档
    2. 检查每个字段以验证数据类型和提取的值。
      Document Automation 支持以下数据类型:文本、数字、日期、地址和复选框
      或者,您可以从右侧面板的下拉列表中选择显示需要验证的字段
      注: 当文档正在等待验证时,如果您编辑学习实例,请单击重新处理以重新尝试提取。

      重新处理文档不会影响已上传文档的指标。

    3. 更新有错误的字段。
      单击字段或在要提取的值周围绘制一个框。
      对于 Automation Anywhere 个预训练模型,您可以配置学习实例以提取字段中的特定值并忽略其他值。 有关更多信息,请参阅 使用验证反馈从表格中提取特定值
      • 要跳过文档而不更正错误,请单击跳过以继续处理验证队列中的下一个文档。
      • 要删除无法处理的文档,请单击标记为无效
    4. 在您进行必要的更正后,单击提交以便文档完成处理。
      接着显示队列中的下一个文档。 更正所有文档后,系统会显示一条消息,说明没有更多任务可处理。
    5. 关闭选项卡以返回到学习实例页面。
  2. 验证输出结果:
    1. 打开 Success 文件夹中的文件,该文件夹包含提取的数据,并检查结果以确保其符合您的场景。
      Microsoft 表单以 JSON 格式返回提取值(OCR 数据),例如 GUID_0-MSFormTableResult.json。 除了在 <<GUID>>_FileName CSV 文件中提取的文档数据外,Success 文件夹还单独在另一个 CSV 文件中显示提取的表格数据。 根据文档中的表格数量,您可以找到每个表格对应的不同 CSV 文件。 例如,<<GUID_PAGE_NUMBER-Table_FILENAME_PAGENUMBER_TABLENUMBER

      有了单独的表格数据,您就可以将提取的数据与 GUID_0-MSFormTableResult.json 文件中的 Microsoft 引擎数据进行比较。

    2. 可选: 查看学习实例仪表板。
      仪表板显示了上传文档的总数和待验证文档的数量。
如果学习实例反复找不到字段,或者字符未被正确识别(例如字母“l”被提取为数字“1”),您可以尝试将 OCR 更改为 Google Vision OCR

后续步骤

构建 bot,将文档从源文件夹上传到学习实例。 然后,将学习实例资产(流程、表单和 bots)发布到公共存储库,以便学习实例可以在公共模式下用于从真实文档中提取数据,并且验证者可以手动验证文档:实际正式发布学习实例