文档类型
- Updated: 2025/04/18
文档类型是根据文档的目的、布局和内容对文档进行的分类。Document Automation 支持对以下文档类型进行处理:结构化、半结构化和非结构化文档。
结构化文档
结构化文档遵循一致的结构和清晰的布局,其中数据被输入或书写,这使得自动化系统更容易提取和处理数据。 用于此类文档的数据提取模型结合了光学字符识别 (OCR) 功能和基于模板的模型,以从结构化文档中提取键值对和表格数据。
以下是一些结构化文档的示例:
- 应用程序表单
- 调查
- 护照
- 报税表
半结构化文档
半结构化文档是具有某种结构或可预测格式的文档,类似于结构化文档,但在布局或内容上也有一些变化。 一些文档可能包含公共数据元素,但这些数据可能在不同文档中的不同位置。 用于此类文档的数据提取模型结合了 OCR 功能、基于关键字的提取、正则表达式和验证反馈,以从半结构化文档中提取键值对和表格数据。
以下是一些半结构化文档的示例:
- 发票
- 采购订单 (PO)
- 提货单
- 利益说明 (EOB)
非结构化文档
非结构化文档缺乏标准格式、固定布局或没有标签的数据。 数据主要以自然语言格式呈现,缺乏一致的结构。 数据提取模型结合了 OCR 功能、自然语言处理 (NLP) 和生成式人工智能技术,以执行语义分析并从非结构化文档中提取键值对和表格数据。
以下是一些非结构化文档的示例:
- 法律文档
- 通信(包括电子邮件)
- 报告
Document Automation 可以处理来自所有这些文档类型的数据提取。 然而,了解文档属于哪个类别对于决定使用哪些选项提取数据非常重要。
注: 非结构化文档不支持使用通过验证提高准确性选项以提供验证反馈。