文档预处理概述
- Updated: 2025/04/09
我们的预处理器 package 允许您在进行数据提取处理之前优化文档。
此 package 作为文档处理工作流的初始步骤,旨在为 Document Automation 中的高效操作准备文档。
此 package 会从文档中提取内容,如条形码、页数和页面内容,或在图像文件被传入 Document Automation 前对其进行预处理。 预处理可提升文档处理的整体效率和准确性,从而优化数据提取效果。
注: 此 package 为可选配置。 仅在要提升待处理文档质量时,才需要启用此功能。
预处理 package 提供以下功能:
- 图像处理
-
- 拼接图像: 将两张图像合并到一个文件中。
- 将图像转换为 PDF: 将图像文件转换为可编辑文本的 PDF 文件。
- 编辑图像: 裁剪或调整图像文件的大小。
- 增强图像: 为图像文件添加效果,如灰度、模糊和锐化。
- 调整图像方向: 翻转或旋转图像文件。
- 内容提取
-
- 获取条形码: 检测并提取文档中的所有条形码。
- 获取文档信息: 检索文档信息,如文件路径、扩展名和页数。
- 页面内容: 从文档的特定页面提取文本。