创建学习实例并上传样本文档进行训练。 在此步骤中,您需要定义单个文档类型(例如发票或采购订单)的数据元素,以及您想要提取的字段。

先决条件

确保示例文档满足以下要求:
  • 每个文档都是一个单独的文件。 例如,如果您已将电子邮件及其附件下载为单个 PDF 文件,则必须将电子邮件正文与附件分开。 请参阅 使用拆分文档 action
  • 这些文档属于以下支持的文件类型之一:
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIFF
  • 使用分辨率值至少为 300 点/英寸 (dpi) 的文档。
  • 在测试模式下,每个学习实例最多可以上传 150 个 10 MB 大小的文件。
  • 在实际正式模式下,每个文档最大可上传 50 MB。 然而,每个学习实例允许的最大文档数量取决于许可证。
  • 在 pdfbox OCR 中,每个文档的页数没有限制。
  • 在基于图像的 OCR 中,每个文档最多可上传 60 页。
  • 您可以上传的文件大小上限为 12 MB。 即使在创建学习实例后,也可以上传其他文档。
  • 您上传的文档文件名不应以特殊字符开头,例如连字符 (-)。
  • 如果您要提取的文本以以下任意特殊字符开头:‘# : , \ ` \'\',则在捕获文本时,IQ Bot 会忽略这些特殊字符。
注:
  • 对于 Tesseract4 OCR,目前已知存在一个限制,即每个文档的页数少于 60 页。
  • Azure 机密计算使组织能够将加密数据上传到安全存储中,例如虚拟机上的私有文件夹。 如果将文档从这些安全文件夹上传到 IQ Bot,则由于不支持对其进行数据提取,这些文档会更改为未分类状态。

当您开始将一组文档插入到数字化流程中时,您可能会混合使用各种类型、格式和取向。 例如,发票具有一组一致的数据元素,而采购订单包含一组不同的数据元素。 您必须使用以下步骤为每种文档类型创建不同的学习实例:

过程

  1. 导航到学习实例,然后单击新建实例选项。
  2. 创建新学习实例屏幕中,输入以下信息:
    1. 实例名称: 输入唯一的名称。
      IQ Bot 版本 A360.21 及以下不允许重复的学习实例名称。 即使您删除了学习实例,也无法重用该名称。 从 IQ Bot 版本 A360.22 开始,可以创建重复的学习实例名称,并且可以重复使用已删除学习实例的名称。
    2. 可选: 描述: 输入描述。
    3. 文档类型: 从下拉列表中选择文档类型。
      根据您选择的选项,将出现一组预定义的域类型的表单和表字段。 例如,选择发票时,会显示发票的常用表单和表。
      注: 如果您想专门为此学习实例创建一个域,请选择文档类型 > 其他并输入域名。 在接下来的步骤中,您将自定义域。

      有关创建自定义域的更多信息,请观看以下视频:

      如果您想创建一个可以在多个学习实例中使用的域,并且您拥有所需的访问权限,您可以与 Automation Anywhere 支持团队合作创建一个自定义域。 有关详细信息,请参阅IQ Bot 中的自定义域

    4. 文档的主要语言: 使用下拉菜单为学习实例选择语言。
      为了使用其他语言创建自定义域并访问IQ Bot支持的 190 种语言,请联系 Automation Anywhere 服务团队。
      重要: 如果您无法在IQ Bot界面中看到所有语言,请排除此问题:Unable to extract data from Multiple languages in a document (A-People login required)
    5. 上传您的文档: 单击浏览选项来上传样本文档。
  3. 选择或取消选择常用表单字段常用表/重复部分字段部分中的字段。
    表单字段在文档中出现一次,例如发票日期或编号。 表字段是指在整个文档中重复出现的字段,例如项目总计或数量。
    要查看所有可能的字段,请单击附加表单字段附加表/重复部分字段
  4. 可选: 通过在附加表单字段附加表/重复部分字段部分输入字段名称来添加其他字段。
    添加字段(可选)字段中输入名称时,请遵循命名约定:
    • 字段名称只能以字母(A-Z 和 a-z)开头。
    • 字段名称只能包含字母数字字符和空格。
    • 字段名称不能以空格结尾。
  5. 光学字符识别: 选择所需的 OCR 引擎。
  6. 可选: 取消选中我的 PDF 文档不含图像复选框。 要了解更多详情,请参阅禁用 PDFBox 选项
    当选中此复选框时,IQ Bot 使用 PDFBox OCR 来处理 PDF 文档;非 PDF 文档将由您在上一步中选择的 OCR 进行处理。
  7. 自动检测复选框: 选中检测复选框复选框以启用此功能。
    选择此选项允许IQ Bot自动检测文档中的复选框。 但是,这可能会增加文档的处理时间。
  8. 单击创建实例并分析按钮以创建学习实例。
    系统会根据字段识别对训练文档进行分析并将其分类到逻辑组中,然后在学习实例 > 摘要选项卡中显示其详细信息。
当创建新的学习实例时,系统会根据文档特征对您上传的样本文档进行分析和分组。 要了解更多详情,请参阅 关于分类器

后续步骤

在分类器完成对文档的分类后,您将被重定向到 Designer,在那里您将训练机器人从每个样本文档中提取数据。训练学习实例