改进表格数据提取
- Updated: 2025/04/30
使用高级训练设置来训练您的文档,并为 Document Automation 提取引擎提供额外的输入,以改进表格数据提取。
提取文档后,您可以在验证页面上使用高级训练设置选项来设置以下值:
- 主列: 根据您的要求设置用于行标识的主列。
- 表结束指示符: 为系统添加一个表格结束指示值,以便在数据达到指定值时提取数据,但不包括表格结束指示值。
- 标题标签: 根据需要调整或重新映射表字段。
注: 此功能仅在提供商可以使用通过验证提高准确性选项时适用。
先决条件
- 仅当启用通过验证提高准确性选项时,高级训练设置选项才可用。
- 确保您具有训练组权限,以提供有关标题标签、表结束标识符和用于行检测的主列的信息。
- 只能有一个主列。
- 表结束指示符是一个系统识别的文本区域 (SIR)。
过程
主列
例如,提取文档后,项目编号列中的多行表格数据被提取为单行,但您希望将其分别提取为多行。 在这种情况中,您可以将项目编号设置为主列以改进表格提取。 有关更多详细信息,请参阅使用高级训练设置设置主列的示例。
表结束指示符
例如,当您处理文档时,它会提取整个表格数据,而您只想提取直到应付总额的行数据。 在这种情况中,您可以指定表结束指示符的值,以便提取直到该值的表格数据(不包括表结束指示符的值),并且不会提取更多行数据。
标题标签
当表格数据中存在标签不匹配时,例如提取的标题标签是单价,但您希望标题标签为价格。 在这种情况中,您可以更改标题标签。
另一个场景是您可以重新映射单价的所有值或更改标题标签以及列数据。 您可以使用自动填充来加快此重新映射的过程。 例如,在提取之后,从学习实例中提取的价格列被提取为总价,但您希望标题标签为单价并同时提取其列数据。 在这种情况中,您可以将总价标题标签更改为单价,并且必须选择并重新映射单价列中的所有单元格值。

以下视频展示了一个示例,将项目编号设置为主列,并将数据提取到单独的行中,而不是单个单元格中。