文档提取概述
- Updated: 2025/04/18
文档提取过程使您能够定义要从文档中提取的特定表单和表格字段。
系统随后自动从这些文档中提取指定数据,以便进一步分析并集成到下游工作流程中。 该过程提高了数据处理的效率、准确性和整体生产力。
当用户创建一个新的学习实例时,Control Room 会在 中自动创建一个与学习实例同名的文件夹。 在该文件夹中,Control Room 创建了以下两个 bots:
- 提取机器人: 从上传的文档中提取定义字段的数据。
- 下载机器人: 根据在下载 bot 中配置的输出结果选项,将提取的数据下载到设备上的特定文件夹或共享网络。
文档提取 package 用于从文档中提取数据并将提取的数据下载到特定位置。
文档提取 package 提供以下功能:
- 多样的文档类型: 处理各种文档类型以适应不同的文档处理场景。 您可以集成自定义数据提取解析器,以利用您预先训练的、特定领域的模型来处理文档工作流程。
- 验证规则: 定义各种条件,例如模式匹配或相等性检查。 当满足这些条件时,您可以快速采取行动标记错误或警告、清理或替换值,或设置新值。 这些规则确保了文档中多个字段的提取数据的准确性。
- Generative AI 提供商: 使用来自生成式人工智能提供商(如 Azure OpenAI 或 Anthropic)的预训练模型从不同类型的文档中提取数据。 用户可以在配置字段时定义搜索查询,然后在处理每个文档时,无需任何额外配置即可提取数据。
- 验证反馈: 通过验证和更正提取的数据来提供对提取数据准确性的反馈。 该过程创建了一个反馈循环,帮助系统随着时间的推移不断提高数据的准确性。
- Automation Co-Pilot 验证器: 提供了一个用户友好的界面,以突出文档中的错误或警告。 验证器为需要验证的字段显示红色轮廓。 用户可以验证这些字段的数据并提交文件以进行重新处理。
- 与 Automation 360 集成: 将提取的数据无缝集成到各种工作流程中,以便在 Automation 360 中进一步处理。