使用高级训练设置来训练您的文档,并为 Document Automation 提取引擎提供额外的输入,以改进表格数据提取。

提取文档后,您可以在验证页面上使用高级训练设置选项来设置以下值:
  • 主列: 根据您的要求设置用于行标识的主列。
  • 表结束指示符: 为系统添加一个表格结束指示值,以便在数据达到指定值时提取数据,但不包括表格结束指示值。
  • 标题标签: 根据需要调整或重新映射表字段。
注: 此功能仅在提供商可以使用通过验证提高准确性选项时适用。

先决条件

  • 仅当启用通过验证提高准确性选项时,高级训练设置选项才可用。
  • 确保您具有训练组权限,以提供有关标题标签、表结束标识符和用于行检测的主列的信息。
  • 只能有一个主列。
  • 表结束指示符是一个系统识别的文本区域 (SIR)。

过程

  1. 处理文档并导航到验证页面。
  2. 单击高级训练设置

    验证器页面中的高级训练设置选项
  3. 训练您的文档以设置以下值:
    1. 设置用户定义的主列以识别行。

      使用“高级训练设置”设置主列

      当您第一次指定此值后,下次您再次处理此文档或类似类型的文档时,此值会自动更新。

      要清除自动更新的值,请单击下拉菜单,然后从下拉菜单中选择空值。

    2. 指定表结束指示符的值。

      指定表结束指示符以提取不包括 EoT 文本的数据
      注: 如果一个表格跨越多个页面,并且每个页面都包含相似的表结束字段,我们建议您添加一个表结束指示符。 添加表结束指示符可以改善数据提取,因为系统会在每一页上评估该指示符。

      当您第一次指定此值后,下次再次处理此文档或类似类型的文档时,即使指示符位于文档的随机位置,该值也会自动更新。

      如果文档没有这个值,也仍然会自动更新。 但是,由于该值缺失,文档上将没有相应的系统识别区域 (SIR)。

      要清除自动更新的值,请单击表结束指示符字段中的值旁边的关闭按钮,或单击文档中值的选择框。

    3. 单击所需的列并指定所需的标题名称。

      更改列的标题值
  4. 单击提交并重新处理文档。
    注: 您必须单击提交以保存,并使这些设置在重新处理文档时生效。
    根据指定的高级训练设置,文档将被重新处理,要么再次发送到验证器以验证字段,如果有的话,要么在 Success 文件夹中以 CSV 文件格式提取数据。

主列

例如,提取文档后,项目编号列中的多行表格数据被提取为单行,但您希望将其分别提取为多行。 在这种情况中,您可以将项目编号设置为主列以改进表格提取。 有关更多详细信息,请参阅使用高级训练设置设置主列的示例

表结束指示符

例如,当您处理文档时,它会提取整个表格数据,而您只想提取直到应付总额的行数据。 在这种情况中,您可以指定表结束指示符的值,以便提取直到该值的表格数据(不包括表结束指示符的值),并且不会提取更多行数据。

标题标签

当表格数据中存在标签不匹配时,例如提取的标题标签是单价,但您希望标题标签为价格。 在这种情况中,您可以更改标题标签。

另一个场景是您可以重新映射单价的所有值或更改标题标签以及列数据。 您可以使用自动填充来加快此重新映射的过程。 例如,在提取之后,从学习实例中提取的价格列被提取为总价,但您希望标题标签为单价并同时提取其列数据。 在这种情况中,您可以将总价标题标签更改为单价,并且必须选择并重新映射单价列中的所有单元格值。


更改标题标签以获取所需的标题及列数据。
以下视频展示了一个示例,将项目编号设置为主列,并将数据提取到单独的行中,而不是单个单元格中。