action Extraction de données structurées
- Dernière mise à jour2026/02/20
action Extraction de données structurées
Tirez parti de la nouvelle action Extraction de données structurées pour capturer des blocs de données structurées à partir d\'applications Web développées sur la technologie HTML. Pendant l\'exécution, le Recorder identifie les objets similaires à celui sélectionné et les organise en lignes, tandis que leurs éléments enfants sont mappés comme des colonnes.
Prérequis
Assurez-vous d\'utiliser l\'extension de navigateur (version 4.1.0.0 ou ultérieure).
Paramètres d\'Action
- Double-cliquez sur ou faites glisser .
- Spécifiez la fenêtre dans laquelle capturer un objet. Choisissez l\'onglet Application, Navigateur ou Variable.
- Application : Choisissez dans une liste de fenêtres actuellement actives. Cette option affiche une liste de toutes les fenêtres d\'application et de navigateur ouvertes sur le périphérique Bot Creator.
- Navigateur : Sélectionnez parmi une liste d\'onglets des navigateurs pris en charge, tels que les navigateurs Google Chrome et Microsoft Edge basé sur Chromium.
- Variable : sélectionnez une variable de fenêtre existante pour spécifier le titre de la fenêtre d\'application.
- Spécifiez la fenêtre dans laquelle capturer un objet.
- Cliquez sur Capturer l\'objet.
La fenêtre sélectionnée s\'affiche.
- Déplacez la souris sur l\'objet spécifié qui possède d\'autres éléments similaires.
Une zone rouge apparaît autour de l\'objet.
- Cliquez sur l\'objet à capturer.
- Examinez le tableau Propriétés de l\'objet.Important : Nous vous recommandons de désélectionner des propriétés telles que ID HTML, Path ainsi que toute autre propriété susceptible de varier d\'une page à l\'autre. Incluez plutôt des propriétés comme DOMXPath et le sélecteur CSS.
- Dans le Type d\'extraction de données, sélectionnez Système ou Personnalisé.
- Système : Ce mode détecte et extrait automatiquement les schémas de données récurrents à partir de la section sélectionnée de la page Web. Il identifie des champs courants tels que le texte, les images et les hyperliens, et les structure en colonnes. Ce mode est idéal lorsque vous souhaitez extraire rapidement des mises en page de données standard, telles que des listes de produits ou des tableaux, sans configurer chaque colonne manuellement.
-
Personnalisé : Le mode personnalisé est le mieux adapté aux mises en page complexes ou non standard qui nécessitent une plus grande précision. Il est particulièrement utile lorsque l\'élément capturé contient de nombreux éléments enfants, mais que vous ne devez en extraire que quelques-uns. De plus, le mode personnalisé garantit que les données extraites restent dans un nombre fixe et prédéfini de colonnes.Sélectionnez Exécuter l\'extraction personnalisée pour extraire tous les points de données de l\'objet capturé, y compris le DOMXPath et sa valeur d\'exemple. Vous pouvez ensuite configurer ou affiner manuellement les données extraites, modifier les expressions XPath, renommer les colonnes et ajouter, supprimer ou réorganiser des éléments selon les besoins. Le mode personnalisé est idéal pour les mises en page complexes ou non standard où une plus grande précision est requise.Important : L\'utilisation d\'une variable dans l\'onglet Application peut entraîner une erreur lors de l\'exécution de l\'extraction personnalisée. Nous vous recommandons de sélectionner la fenêtre spécifique dans l\'onglet Application et d\'exécuter l\'extraction personnalisée sans enregistrer le robot.
- Dans le champ Définir le délai d\'expiration du système, sélectionnez Basique ou Avancé.
-
Basique : dans le champ Attendre la réponse du système (en secondes), spécifiez le nombre de secondes pendant lesquelles le bot doit attendre que le contrôle d\'objet s\'affiche dans la fenêtre de l\'application. Ce temps d\'attente comprend le temps de chargement de la page et le temps de recherche de l\'objet.Remarque : Le délai d\'attente spécifié pour que le bot attende que le contrôle apparaisse sur la fenêtre de l\'application ne s\'applique que si la fenêtre dans laquelle le contrôle est présent existe. L\'Recorder recherche d\'abord la fenêtre de l\'application, puis l\'objet qui se trouve dans cette fenêtre. Par défaut, la durée de recherche de la fenêtre est de 30 secondes. Par conséquent, même si vous spécifiez un délai d\'attente de 5 secondes, il attend toujours 30 secondes par défaut si la fenêtre n\'existe pas.
Nous vous recommandons d\'utiliser d\'abord la condition , de spécifier un délai d\'attente de zéro seconde et de vous assurer que la fenêtre de l\'application existe. Si la fenêtre existe, utilisez l\'Recorder, spécifiez un délai d\'attente de 5 secondes et exécutez le bot pour détecter l\'objet.
-
Avancé : utilisez cette option pour automatiser les sites Web qui se chargent et se mettent à jour en permanence avec les données les plus récentes, comme un site Web d\'actions. Techniquement, ces sites Web ne sont jamais entièrement chargés à l\'écran. Dans ces cas-là, le bot n\'a pas besoin d\'attendre le chargement complet de la page Web et peut directement procéder à l\'automatisation de la page Web après un certain temps.
Dans le champ Attendre la réponse du navigateur (en secondes), indiquez le nombre de secondes pendant lesquelles le bot doit attendre le chargement du navigateur. Sélectionnez l\'une des options ci-dessous :
- Arrêter le robot et afficher un message d\'erreur : si la page Web n\'a pas été complètement chargée dans le délai spécifié, sélectionnez cette option pour arrêter le bot et afficher un message d\'erreur.
- Ignorer et accéder à l\'objet : sélectionnez cette option pour accéder directement à l\'objet et le capturer même si la page Web n\'a pas été complètement chargée.
Saisissez une valeur dans le champ Attendre la réponse de l\'objet (en secondes) pour spécifier le nombre de secondes pendant lesquelles le bot doit attendre que le contrôle d\'objet s\'affiche dans la fenêtre de l\'application.
-
La page utilise le chargement différé : Sélectionnez cette option pour les pages où les données se chargent dynamiquement et continuent de se charger automatiquement. Par exemple, les éléments sont chargés sur la page au fur et à mesure que vous faites défiler.
- Nouvelles tentatives : Saisissez le nombre de nouvelles tentatives dont vous avez besoin pour vérifier les nouvelles données.
- Délai d\'attente entre les nouvelles tentatives : Saisissez le nombre de secondes pendant lequel vous souhaitez que l\'automatisation attende entre les nouvelles tentatives.
-
Basique : dans le champ Attendre la réponse du système (en secondes), spécifiez le nombre de secondes pendant lesquelles le bot doit attendre que le contrôle d\'objet s\'affiche dans la fenêtre de l\'application. Ce temps d\'attente comprend le temps de chargement de la page et le temps de recherche de l\'objet.
- Dans le champ Enregistrer le résultat dans une variable, créez une variable de type Table de données pour stocker la sortie.
Les données extraites sont stockées dans une table de données, où les objets similaires sont disposés en lignes et leurs éléments enfants sont représentés en colonnes.
Comportement connu des produits
- Seul le contenu textuel sera extrait lors de l\'extraction. Les balises telles que img, input, select, button, script et style seront ignorées lors de l\'extraction.
- Lorsque vous utilisez l\'action pour enregistrer les données générées par l\'action Extraction de données structurées dans un fichier CSV, assurez-vous de sélectionner UTF-8 comme encodage.
- Les éléments similaires au sein du shadow DOM ne sont pas pris en charge.
- Le système est incapable de trouver des objets si l\'objet capturé d\'origine n\'est pas disponible.
- L\'enregistrement sécurisé n\'est actuellement pas pris en charge.