结构化数据提取 action
- Updated: 2026/02/23
结构化数据提取 action
利用全新的结构化数据提取 action,从基于 HTML 技术构建的网页应用中捕获结构化数据块。 在运行时,Recorder 会识别与所选对象相似的对象并将其组织为行,同时将其子元素作为列进行映射。
注: 此 action 仅适用于在 Windows 平台上构建自动化。
先决条件
请确保您使用的是浏览器扩展程序(版本 4.1.0.0 或更高版本)。
操作参数
- 双击或拖动。
- 指定捕获对象的窗口。 从应用程序、浏览器或变量选项卡中选择。
- 应用程序: 从当前活动窗口的列表中选择。 此选项显示 Bot Creator 设备上打开的所有应用程序和浏览器窗口的列表。
- 浏览器: 从支持的浏览器标签列表中选择,例如 Google Chrome 和基于 Chromium 的 Microsoft Edge 浏览器。
- 变量: 选择现有窗口变量以指定应用程序窗口标题。
- 指定捕获对象的窗口。
- 单击捕获对象。
选定窗口将出现。
- 将鼠标移动到具有其他相似元素的指定对象上。
对象周围会出现一个红色矩形框。
- 单击对象以进行捕获。
- 查看对象属性表。重要: 我们建议您取消选择诸如 HTML ID、路径以及任何其他可能随每个页面变化的属性。 请改为包含 DOMXPath 和 CSS 选择器之类的属性。
- 从数据提取类型中,选择系统或自定义。
- 系统: 该模式会自动检测并提取所选网页区域中的重复数据模式。 它能够识别常见字段,例如文本、图像和超链接,并将其结构化为列。 此模式非常适用于在无需手动配置每一列的情况下,快速提取标准数据布局,例如产品列表或表格。
-
自定义: 自定义模式最适用于需要更高精度的复杂或非标准页面布局。 当捕获的元素包含多个子元素,但只需提取其中的部分元素时,此模式尤为有用。 此外,自定义模式确保提取的数据保持在固定的、预先定义的列数中。选择运行自定义提取以从捕获的对象中提取所有数据点,包括 DOMXPath 及其示例值。 随后,可以手动配置或优化提取的数据,编辑 XPath 表达式,重命名列,并根据需要添加、删除或重新排列元素。 自定义模式非常适合需要更高精度的复杂或非标准页面布局。重要: 在应用程序选项卡中使用变量可能会在运行自定义提取时导致错误。 我们建议您在应用程序选项卡中从下拉菜单选择特定窗口,并在不保存机器人的情况下运行自定义数据提取。
- 在设置系统超时字段中,选择基本或高级。
-
基本: 在等待系统响应(以秒为单位)字段中,指定 bot 必须在应用程序窗口中等待对象控件出现的秒数。 此等待时间包括页面加载和对象搜索的等待时间。注: 为 bot 指定的超时时间仅在控件所在的窗口存在时适用于等待控件出现在应用程序窗口上。 Recorder 首先查找应用程序窗口,然后才在该窗口内搜索对象。 默认的窗口搜索时间为 30 秒。 因此,即使您将等待时间指定为 5 秒,如果窗口不存在,它仍会默认等待 30 秒。
我们建议您首先使用 条件,指定等待时间为零秒,并确保应用程序窗口存在。 如果窗口存在,则使用 Recorder,指定等待时间为 5 秒,并运行 bot 来检测对象。
-
高级: 使用此选项可以自动化那些不断加载和更新最新数据的网站,例如股票网站。 这些网站在技术上从未完全加载到屏幕上。 在此类情况下,bot 无需等待网页完全加载,可以在一定时间后直接进行网页自动化操作。
在等待浏览器响应(以秒为单位)字段中,指定 bot 必须等待浏览器加载的秒数。 选择以下选项之一:
- 停止机器人并显示错误消息: 如果网页在指定的超时时间内未完全加载,请选择此选项以停止 bot 并显示错误消息。
- 跳过并继续处理对象: 选择此选项以直接处理对象并捕获它,即使网页尚未完全加载。
在等待对象响应(以秒为单位)字段中,指定 bot 必须在应用程序窗口中等待对象控件出现的秒数。
-
页面具有延迟加载功能: 选择此选项用于数据以动态方式加载并持续自动加载的页面。 例如,随着您滚动,项目会在页面上加载。
- 重试次数: 输入您需要用于检查新数据的重试次数。
- 重试之间的等待时间: 输入您希望自动化在重试尝试之间等待的秒数。
-
基本: 在等待系统响应(以秒为单位)字段中,指定 bot 必须在应用程序窗口中等待对象控件出现的秒数。 此等待时间包括页面加载和对象搜索的等待时间。
- 在将结果保存到变量字段中,创建数据表变量以存储输出。
提取的数据存储在数据表中,其中相似的对象以行形式排列,其子元素则以列形式呈现。
已知产品行为
- 提取过程中仅提取文本内容。 img、input、select、button、script 及 style 等标签在提取过程中将被跳过。
- 在使用 操作将结构化数据提取操作生成的数据保存为 CSV 文件时,请确保选择 UTF-8 作为编码。
- Shadow DOM 内的类似元素不受支持。
- 如果原始捕获的对象不可用,系统将无法找到对象。
- 目前不支持安全录制。