Comment configurer un analyseur pour n'importe quel site de boutique en ligne - obtenir un catalogue de produits avec des prix, des descriptions et des photos
Fonctionnement de l'analyseur de commerce électronique Elbuz
Toutes les boutiques en ligne sont créées à l'aide du langage HTML, il s'agit d'un langage de balisage de page standardisé sur le World Wide Web, de sorte que tous les sites utilisent les mêmes éléments pour différents blocs, l'analyseur Elbuz utilise cette norme pour recevoir des données de la boutique en ligne site.
Liste des balises HTML les plus couramment utilisées sur les pages des boutiques en ligne :
- balise div. Un élément de bloc universel qui vous permet de sélectionner une section avec un contenu visuel sur le site. Il peut s'agir d'une liste de produits.
- Marquer un. Affiche un lien vers une page. Il peut s'agir de liens vers des produits d'une catégorie spécifique.
- balise h1. Affiche l'en-tête du premier niveau (il y a aussi h2, h3, h4, h5, h6). Il peut s'agir du nom du produit.
- balise p. Affiche un paragraphe de texte. Il peut s'agir d'une description de produit.
- balise de tableau. Affiche un tableau. Il peut s'agir d'une table d'attributs de produit.
- balise UL. Affiche une liste à puces. Il peut s'agir d'une brève description de l'article.
- balise img. Conçu pour être affiché sur la page d'image. Il peut s'agir de photos de produits.
Les balises peuvent contenir le nom du style pour l'affichage visuel des informations sur le site, par exemple, le style de bloc spécifié vous permet d'afficher du texte en gras ou en vert pour n'importe quel élément. Sur la base de ces données standardisées dans le système Elbuz, vous pouvez configurer l'analyseur pour n'importe quel magasin en ligne afin d'obtenir les informations dont vous avez besoin, l'analyseur Elbuz utilise des sélecteurs CSS (styles de conception de site) ou XPath (langage de requête pour le site éléments) pour recevoir des données.
Pour commencer, vous devez installer l'extension pour le navigateur Google Chrome, pour ce faire, suivez ce lien. L'analyse n'est possible que dans le navigateur Google Chrome. Si le lien Chrome Store ne fonctionne pas, installez l'extension manuellement. Vous ne pouvez pas non plus utiliser l'extension du navigateur, pour cela, vous devez activer la fonction d'analyse du serveur.
Création d'un nouvel analyseur
Pour configurer l'analyseur, suivez cet ordre d'opérations :
- Listes de prix ouvertes.
- Cliquez sur le bouton Ajouter une contrepartie.
- Spécifiez le nom du site.
- Sélectionnez l'onglet Analyseur.
- Cliquez sur le bouton Ajouter un site.
- Fournir un lien vers la page principale du site.
- Spécifiez les sélecteurs de balises.
Pour ajouter un nouveau parseur de site, ouvrez la fenêtre "Listes de prix", cliquez sur le bouton "+" et sélectionnez "Ajouter une contrepartie"
Précisez le nom de la contrepartie (boutique en ligne) et sélectionnez un groupe, les groupes suivants sont disponibles par défaut: Fournisseur, Concurrent, Client.
Après avoir ajouté la contrepartie, vous serez invité à choisir d'où vous souhaitez télécharger les données, dans cette liste, sélectionnez l'élément "Website Parser" et cliquez sur le bouton "Ajouter un site"
Spécifiez l'adresse de la boutique en ligne pour l'analyse des données
Configuration d'un analyseur pour recevoir des données d'une boutique en ligne
L'ordre de l'analyseur pour télécharger des marchandises à partir de la boutique en ligne :
- Obtenir des liens vers des catégories de produits
- Obtenir des liens de produits
- Obtenez des cartes de produits et enregistrez les informations nécessaires
Après avoir ajouté l'analyseur de boutique en ligne, la fenêtre des paramètres s'ouvrira
La table de configuration contient les types d'opérations et la liste des champs pour y stocker des données. Les types d'opérations sont les étapes de l'analyseur pour obtenir des données du site.
Par exemple, pour obtenir une liste de produits du site, vous devez obtenir des liens vers des catégories de produits afin que l'analyseur puisse ouvrir une page pour obtenir des informations sur chaque produit, donc la première opération que l'analyseur utilisera est "Liste des liens aux catégories de produits".
Type d'opération :
- Liste de liens vers les catégories de produits. Utilisé pour obtenir des liens vers des catégories de produits.
- Liste de liens vers des produits. Utilisé pour obtenir des liens vers des produits.
- Produit de carte. Utilisé pour obtenir des informations sur le produit. Lors de cette opération, vous pouvez obtenir le nom du produit, l'article du fabricant, le modèle, la garantie, le nom du fabricant, des photos, des critiques vidéo et d'autres informations sur le site.
- Attributs du produit. Utilisé pour obtenir les attributs du produit.
Description des colonnes de la grille pour la configuration de l'analyseur
- Sélecteur d'opération. Signe du sélecteur principal de réception des données du site pour effectuer cette opération.
- Nom de domaine. Nom de l'opération ou du champ dans lequel stocker les données.
- Sélecteur #1-4. L'analyseur Elbuz utilise des sélecteurs CSS (styles de site) ou XPath (langage de requête pour les éléments du site) pour recevoir les données des pages du site. Les champs du sélecteur spécifient les conditions pour trouver les blocs dont vous avez besoin sur le site et en obtenir des informations.
- Lien pour tester. Lien vers la page du site pour tester l'acquisition des données. Pour chaque opération, un lien vers une section distincte du site est indiqué, par exemple, pour l'opération "Liste des liens vers les catégories de produits", un lien vers la page principale du site est indiqué, où il y a une liste de tous catégories de produits. Pour tester les attributs de réception de marchandises pour l'opération "Fiche article", un lien vers la marchandise est spécifié.
- Texte à nettoyer. Mots-clés à nettoyer lors de l'obtention de données. Par exemple, dans le nom du produit sur le site, il y a du texte supplémentaire que vous ne souhaitez pas recevoir du site, vous pouvez définir ce texte dans le champ "Texte à nettoyer" pour le supprimer.
- Trouver. Texte de recherche.
- Remplacer. Texte à remplacer (basé sur le texte trouvé).
- Recevez HTML. S'il est nécessaire de conserver la mise en forme du texte reçu de la page du site à l'aide de balises html, définissez ce drapeau.
- Expression régulière. Vous pouvez utiliser une expression régulière pour obtenir la valeur souhaitée en fonction du texte reçu via le sélecteur, c'est-à-dire analyser la chaîne en composants plus en détail et obtenir ce dont vous avez besoin à la fin.
- XPath. Activation du sélecteur de mode de langue de requête XPath.
- Le nombre maximum de résultats. Permet de limiter le téléchargement des données pour les tests de téléchargement, pour ne pas attendre que tout le site soit téléchargé, vous pouvez paramétrer pour ne recevoir qu'1 lien vers une catégorie et recevoir par exemple 2 liens vers des produits, pour cela vous pouvez définir le nombre de résultats pour chaque opération.
- Marchandises dans cette opération. Vous pouvez recevoir des marchandises sans ouvrir de fiches produits sur le site. Ce mode sera utile si vous souhaitez obtenir uniquement les prix des biens et autres valeurs disponibles lors de la mise en vente des biens dans une catégorie.
- Noter. Une note pour une chaîne de réglage, par exemple, vous pouvez vous épargner un rappel de ce que signifie ce paramètre.
Étape numéro 1. Obtenir une liste de liens vers des catégories de produits
Pour obtenir une liste des liens vers les catégories de produits, vous devez trouver le sélecteur de lien qui mène à la catégorie, pour cela, copiez le lien du site (généralement c'est la page principale du site) dans le "Lien pour tester" champ et cliquez sur le bouton "T"
L'onglet "Test de téléchargement" s'ouvrira, dans lequel la page sur le lien que vous avez spécifié sera affichée, les catégories de produits devraient y être visibles. Les résultats du travail de l'analyseur sont affichés sur la gauche. Votre tâche consiste à obtenir une liste de liens vers des catégories de produits à partir du site ; si l'analyseur est configuré avec succès, vous verrez une liste de liens vers des catégories sur le côté gauche de la filtrer.
Attention! Le test de téléchargement n'est possible que pour les sites qui utilisent le protocole https sécurisé, uniquement pour ces sites, vous pouvez vérifier visuellement la réception des données dans l'onglet "Test de téléchargement", tandis que vous pouvez toujours configurer l'analyse de ces sites (en utilisant le protocole non sécurisé protocole http), mais vérifier visuellement que l'obtention des données ne fonctionnera pas, c'est-à-dire que toutes les balises et tous les sélecteurs doivent être saisis "à l'aveugle" (au hasard).
Pour rechercher un sélecteur de lien pour les catégories de produits, cliquez avec le bouton droit sur le nom de n'importe quelle catégorie et sélectionnez "Afficher le code", après quoi une fenêtre de navigateur s'ouvrira avec le code source du site. Vous pouvez le positionner comme bon vous semble, par exemple, à gauche ou en bas de l'écran
Vous pouvez également ouvrir le lien dans un onglet de navigateur séparé si vous avez besoin de plus d'espace à l'écran pour rechercher le sélecteur de lien de produit et faire de même.
Nous recherchons des blocs de catégories de produits et un lien dans celles-ci
Votre tâche consiste à trouver des blocs de liens vers des catégories de produits. Après avoir sélectionné l'élément "Voir le code", le navigateur ouvrira le code source du site à l'endroit où le bouton droit de la souris a été enfoncé, dans cet exemple nous avons cliqué sur le nom de la catégorie et nous voyons que les liens vers les catégories sont situés dans les balises "div" et "a" (l'image ci-dessous est cliquable pour l'agrandir).
Comme vous pouvez le voir, chaque catégorie de produit a un bloc "div" et il contient des liens "a", tandis que le bloc "div" a le nom de style links-list (class="links-list") et le lien "a" a le nom de style link ( class="link") .
Écrivons les sélecteurs dans les paramètres de l'analyseur sous cette forme : spécifiez les noms de balise séparés par un espace et spécifiez les noms de style séparés par un point. Vous pouvez simplement spécifier la balise "a" et son style, s'il est unique dans la page pour un lien qui mène à une catégorie de produit (alors le 1er paragraphe n'est pas obligatoire).
Nous vérifions le résultat, pour cela nous appuyons sur le bouton "T". Comme vous pouvez le voir dans l'exemple, nous avons obtenu 74 liens vers des catégories de produits, c'est-à-dire que notre analyseur sait déjà comment rechercher des catégories sur un site tiers
Étape numéro 2. Obtenir une liste de liens de produits
Pour obtenir une liste de liens de produits, vous devez trouver le sélecteur de liens de produits sur la page de liste des produits dans la catégorie, pour ouvrir n'importe quelle catégorie de produits sur le site et copier le lien dans le champ "Lien pour tester", puis cliquez sur le Bouton "T"
L'onglet "Test de téléchargement" s'ouvrira, dans lequel la page sur le lien que vous avez spécifié sera affichée, une liste de produits devrait y être visible. Les résultats du travail de l'analyseur sont affichés sur la gauche. Votre tâche consiste à obtenir une liste de liens vers des produits du site, si l'analyseur est configuré avec succès, vous verrez une liste de liens sur le côté gauche de l'écran.
Pour rechercher un sélecteur de lien de produit, faites un clic droit sur le nom de n'importe quel produit et sélectionnez "Afficher le code", après quoi une fenêtre de navigateur s'ouvrira avec le code source du site.
Nous recherchons des blocs de marchandises et un lien en eux
Votre tâche consiste à trouver des blocs de produits avec des liens vers la fiche produit. Après avoir sélectionné l'élément "Afficher le code", le navigateur ouvrira le code source du site à l'endroit où le bouton droit de la souris a été enfoncé, dans cet exemple nous avons cliqué sur le nom du produit et nous voyons que les liens du produit sont situés dans les balises "div" et "a".
Autrement dit, chaque produit dans les résultats de la recherche a un bloc "div" et contient un lien "a", tandis que le bloc "div" a le nom du style de mosaïque (class="tile").
Autrement dit, chaque produit de la liste a le même style appelé mosaïque, et nous utiliserons ces informations pour obtenir des liens vers chaque produit.
Écrivons les sélecteurs dans les paramètres de l'analyseur sous cette forme : spécifiez le nom du style par un point et la balise "a" séparés par un espace
Nous vérifions le résultat, pour cela nous appuyons sur le bouton "T". Comme vous pouvez le voir dans l'exemple, nous avons obtenu 28 liens vers des produits, c'est-à-dire que notre analyseur sait déjà comment trouver des produits sur un site tiers
Configuration de la navigation de page (pagination)
Lors de l'ouverture d'une catégorie de produits, tous les produits ne sont généralement pas affichés, par exemple, seuls 28 produits peuvent être affichés, les produits suivants sont sur la page n ° 2, ce mode est appelé pagination (pagination). Pour obtenir des liens de produits sur d'autres pages, vous devez trouver un sélecteur de lien qui mène à la page suivante, vous devez trouver un bloc de navigation sur la page pour aller vers d'autres pages (paginateur), dans l'exemple ci-dessous, ce bloc ressemble ceci et a un tel sélecteur
ul[nom="paginateur"] li a
Le sélecteur trouvé pour la pagination des marchandises est indiqué dans le champ "Sélecteur n° 2"
Il existe des sites sur lesquels les liens de pagination ne contiennent pas le lien courant vers la page (lien vers la catégorie de produit), alors la pagination peut ne pas être déterminée correctement, exemple de définition erronée, lorsque le lien ne contient que le numéro de page, en conséquence, le lien mènera à la page principale du site
Pour résoudre ce problème, vous devez connaître l'adresse de la page actuelle. Vous devez ouvrir le code source du site et essayer de trouver l'adresse de la page en cours, si une est trouvée, vous devez alors spécifier dans le champ Sélecteur n ° 3 les balises comment l'obtenir, par exemple à partir du Bloc "fil d'Ariane" (breadcrumbs): div. breadcrumbs a. active
L'étape 2 peut être utilisée pour obtenir uniquement une liste de marchandises, ce mode sera utile lorsque vous avez besoin d'obtenir uniquement les prix des marchandises, sans descriptions, spécifications techniques. caractéristiques et photos, tandis que la vitesse d'obtention des données du site sera plusieurs fois supérieure (il n'est pas nécessaire d'aller sur les fiches produits du site). Pour activer ce mode, mettez le drapeau "Produits dans cette opération" pour le type d'opération "Liste des liens vers les produits", puis précisez les sélecteurs des champs à renseigner depuis le site. En conséquence, vous n'avez pas besoin de remplir le conférencier pour obtenir des liens vers des produits, mais uniquement une "pagination".
Étape numéro 3. Récupération des données de la fiche produit.
Par analogie avec la recherche d'un sélecteur de lien produit, vous devez trouver des sélecteurs pour les champs dont vous avez besoin dans la fiche produit, pour cela nous écrivons un lien vers le produit de test dans le champ "Lien pour tester" et l'ouvrons
Vous devez cliquer avec le bouton droit sur le nom du produit et sélectionner l'élément "Afficher le code", après quoi une fenêtre de navigateur s'ouvrira avec le code source du site.
Par exemple, le nom du produit est dans la balise h1
Écrivons le sélecteur h1 dans le tableau des paramètres
Ensuite, nous recherchons un sélecteur pour le prix du produit
Écrivez le sélecteur comme ceci
div. main-price span. price-number span
Ensuite, nous recherchons un sélecteur pour la description du produit
Écrivez le sélecteur comme ceci
div[itemprop="description"]
Pour les liens vers des photos, nous prescrivons un tel sélecteur
div. image img::attr(src)
Vérification du résultat
Étape numéro 4. Obtenir les attributs du produit.
Pour obtenir des attributs de produit, vous devez spécifier un sélecteur pour un bloc d'attributs (table) et un sélecteur de chaîne contenant le nom et la valeur de l'attribut.
Procédure:
- Dans le champ "Sélecteur n°1", indiquez le sélecteur du bloc d'attributs
- Dans le champ "Sélecteur n°2", indiquez le sélecteur pour le bloc qui contient le nom et la valeur de l'attribut (c'est-à-dire pour la ligne de la table des attributs)
- Dans le champ "Nom de l'attribut", indiquez le sélecteur où se trouve le nom de l'attribut
- Dans le champ "Valeur des attributs", indiquez le sélecteur où se trouve la valeur de l'attribut
Exemple de réglage
Un exemple de personnalisation basée sur le code source du site
Le résultat de la vérification de la réception des attributs du produit (caractéristiques, propriétés)
Si les attributs sont sur une page séparée
Si les attributs sont sur une page à part, par exemple, cliquer sur l'onglet "Fonctionnalités" ouvre une nouvelle page, alors il y a deux solutions, elles reviennent toutes à obtenir un lien vers la page où se trouvent les attributs du produit, afin que le le programme peut le parcourir et obtenir des données.
Option numéro 1. Le lien est dans le code source html.
Le sélecteur #3 doit être configuré pour le type d'opération "Attributs du produit" pour obtenir un lien (ou une partie d'un lien vers une page d'attribut).
Par exemple, lorsque vous cliquez sur un onglet du site, il y a un tel code html, alors le sélecteur pour obtenir le lien sera: a. nav-tabs-link
Option numéro 2. Un préfixe est ajouté au lien vers le produit, qui n'est pas explicitement dans le code source html.
Il est nécessaire pour le type d'opération "Attributs du produit" d'inscrire le préfixe du lien dans le sélecteur n°4 pour l'ajouter au lien du produit.
Par exemple, vous pouvez écrire: tab=caractéristiques, puis le programme ouvrira un lien vers le produit + préfixe, ainsi l'analyseur ira à la page des attributs du produit. Ce qu'il faut exactement prescrire dans le préfixe est déterminé empiriquement après une analyse approfondie du site.
Commencer l'analyse avec le chargement d'un catalogue de produits à partir d'un site tiers.
Le téléchargement de marchandises à partir du site Web de la boutique en ligne se fera dans l'ordre suivant :
- Obtenir des liens vers des catégories de produits
- Obtenir des liens vers des produits
- Nous recevons des fiches produits et enregistrons les informations nécessaires
Pour les tests de téléchargement, définissez le nombre maximal de résultats pour les étapes afin de vérifier rapidement l'analyse des données à partir du site de la boutique en ligne. Dans cet exemple, un lien vers une catégorie de produits avec une liste de produits sera chargé à partir duquel trois liens de produits seront obtenus
Comment obtenir des options de produits
Dans le programme Elbuz, les produits optionnels sont des produits virtuels liés à un produit principal, tandis que sur le site source, il s'agit d'une fiche produit avec un ensemble d'options. Pour obtenir des options, vous devez enregistrer un sélecteur pour obtenir les noms des options, spécifier un séparateur virgule et définir le drapeau "Option produit"
Lors du test, les valeurs seront affichées séparées par des virgules
Après chargement des produits depuis le site, 1 produit principal et plusieurs produits optionnels seront créés pour chaque valeur spécifiée sur le site.
Comment gratter un site
Il existe plusieurs modes d'analyse :
- Spécifiez manuellement les liens vers les catégories ou les produits dont vous avez besoin.
Si vous avez besoin de recevoir des produits uniquement de certaines catégories, vous devez ajouter des liens vers les catégories nécessaires dans l'onglet "Liste des liens". Il est également possible de recevoir des informations uniquement sur les produits dont vous avez besoin, pour cela, indiquez un lien vers le produit et cochez le drapeau "Lien vers le produit". - Charger une liste de liens à partir d'un fichier qui nécessitent des informations sur le site. Le fichier doit être au format CSV (fichier texte).
- Téléchargez vos produits dans le catalogue de base et commencez à rechercher des produits sur le site en fonction de vos produits, le programme insère le nom de votre produit dans la barre de recherche du site et enregistre le produit reçu dans la base de données du programme. Dans ce mode, il est important que vos noms de produits soient identiques aux noms sur le site ou très proches d'eux, car la précision de la recherche dépend de l'algorithme du site lui-même, s'il peut trouver le produit dont vous avez besoin ou non .
Pour charger une liste de liens à partir d'un fichier, suivez ces étapes
Recherche automatisée de vos produits sur les sites Web
- Vous devez spécifier un lien vers la recherche dans les paramètres. Le lien est individuel pour chaque site. Pour obtenir un lien, saisissez n'importe quel texte dans la barre de recherche du site, copiez le lien sans texte depuis le navigateur, un exemple de lien :
https://site.com/?search_text={NAME}
Au lieu de {NAME}, le programme remplacera votre mot-clé et générera des liens pour rechercher votre produit sur le site source. Vous pouvez également spécifier la substitution de macro {SKU} afin que la recherche soit effectuée par la valeur du champ "Article du fabricant", au lieu du nom. - Activez l'option "Recherchez vos produits"
Ceci n'est qu'une brève présentation des capacités du programme E-Trae Jumper, qui automatise les processus d'une boutique en ligne moderne.
Contactez-nous pour une consultation détaillée sur la résolution de vos problèmes individuels. Les coordonnées sont sur ce site.
Programme pour boutique en ligne