创建学习实例
- Updated: 2025/07/01
创建学习实例并上传样本文档进行训练。 在此步骤中,您需要定义单个文档类型(例如发票或采购订单)的数据元素,以及您想要提取的字段。
先决条件
确保示例文档满足以下要求:
- 每个文档都是一个单独的文件。 例如,如果您已将电子邮件及其附件下载为单个 PDF 文件,则必须将电子邮件正文与附件分开。 请参阅 使用拆分文档 action。
- 这些文档属于以下支持的文件类型之一:
- JPG
- JPEG
- PNG
- TIFF
- 使用分辨率值至少为 300 点/英寸 (dpi) 的文档。
- 在测试模式下,每个学习实例最多可以上传 150 个 10 MB 大小的文件。
- 在实际正式模式下,每个文档最大可上传 50 MB。 然而,每个学习实例允许的最大文档数量取决于许可证。
- 在 pdfbox OCR 中,每个文档的页数没有限制。
- 在基于图像的 OCR 中,每个文档最多可上传 60 页。
- 您可以上传的文件大小上限为 12 MB。 即使在创建学习实例后,也可以上传其他文档。
- 您上传的文档文件名不应以特殊字符开头,例如连字符 (-)。
- 如果您要提取的文本以以下任意特殊字符开头:‘# : , \ ` \'\',则在捕获文本时,IQ Bot 会忽略这些特殊字符。
注:
- 对于 Tesseract4 OCR,目前已知存在一个限制,即每个文档的页数少于 60 页。
- Azure 机密计算使组织能够将加密数据上传到安全存储中,例如虚拟机上的私有文件夹。 如果将文档从这些安全文件夹上传到 IQ Bot,则由于不支持对其进行数据提取,这些文档会更改为未分类状态。
当您开始将一组文档插入到数字化流程中时,您可能会混合使用各种类型、格式和取向。 例如,发票具有一组一致的数据元素,而采购订单包含一组不同的数据元素。 您必须使用以下步骤为每种文档类型创建不同的学习实例:
过程
后续步骤
在分类器完成对文档的分类后,您将被重定向到 Designer,在那里您将训练机器人从每个样本文档中提取数据。训练学习实例。