So richten Sie einen Parser für eine Website eines Online-Shops ein - und erhalten einen Warenkatalog mit Preisen, Beschreibungen und Fotos
So funktioniert der E-Commerce-Parser Elbuz
Alle Online-Shops werden mit der HTML-Sprache erstellt, dies ist eine standardisierte Seitenauszeichnungssprache im World Wide Web, sodass alle Websites dieselben Elemente für verschiedene Blöcke verwenden. Der Elbuz-Jumper-Parser verwendet diesen Standard, um Daten aus dem Online-Shop zu erhalten Seite? ˅.
Liste der am häufigsten verwendeten HTML-Tags, die sich auf den Seiten von Online-Shops befinden:
- div-Tag. Ein universelles Blockelement, mit dem Sie einen Abschnitt mit visuellen Inhalten auf der Website auswählen können. Es könnte eine Liste von Produkten sein.
- Markieren Sie a. Zeigt einen Link zu einer Seite an. Dies können Links zu Produkten in einer bestimmten Kategorie sein.
- h1-Tag. Zeigt die Überschrift der ersten Ebene an (es gibt auch h2, h3, h4, h5, h6). Es kann der Name des Produkts sein.
- p-Tag. Zeigt einen Textabsatz an. Das kann eine Produktbeschreibung sein.
- Tabellen-Tag. Zeigt eine Tabelle an. Es kann eine Produktattributtabelle sein.
- ul-Tag. Zeigt eine Liste mit Aufzählungszeichen an. Dies kann eine kurze Beschreibung des Artikels sein.
- img-Tag. Entworfen, um auf der Bildseite angezeigt zu werden. Dies können Produktfotos sein.
Die Tags können den Namen des Stils für die visuelle Anzeige von Informationen auf der Website enthalten, beispielsweise ermöglicht der angegebene Blockstil die Anzeige von fettem Text oder grüner Farbe für jedes Element. Basierend auf diesen standardisierten Daten im Elbuz-System können Sie den Parser für jeden Online-Shop konfigurieren, um die benötigten Informationen zu erhalten. Der Elbuz-Parser verwendet CSS-Selektoren (Site-Design-Stile) oder XPath (Abfragesprache für Site Elemente), um Daten zu empfangen .
Um zu beginnen, müssen Sie die Erweiterung für den Google Chrome-Browser installieren, folgen Sie dazu diesem Link. Das Parsen ist nur im Google Chrome-Browser möglich. Wenn der Chrome Store-Link nicht funktioniert, installieren Sie die Erweiterung manuell. Sie können die Browser-Erweiterung auch nicht verwenden, dazu müssen Sie die Server-Parsing-Funktion aktivieren.
Erstellen eines neuen Parsers
Um den Parser zu konfigurieren, befolgen Sie diese Reihenfolge der Vorgänge:
- Preislisten öffnen.
- Klicken Sie auf die Schaltfläche Gegenpartei hinzufügen.
- Geben Sie den Namen der Site an.
- Wählen Sie die Registerkarte Parser aus.
- Klicken Sie auf die Schaltfläche Website hinzufügen.
- Stellen Sie einen Link zur Hauptseite der Website bereit.
- Geben Sie Tag-Selektoren an.
Um einen neuen Website-Parser hinzuzufügen, öffnen Sie das Fenster "Preislisten", klicken Sie auf die Schaltfläche "+" und wählen Sie "Gegenpartei hinzufügen".
Geben Sie den Namen der Gegenpartei (Online-Shop) an und wählen Sie eine Gruppe aus, die folgenden Gruppen sind standardmäßig verfügbar: Lieferant, Wettbewerber, Kunde.
Nachdem Sie die Gegenpartei hinzugefügt haben, werden Sie aufgefordert, auszuwählen, von wo Sie Daten herunterladen möchten. Wählen Sie in dieser Liste das Element "Website-Parser" aus und klicken Sie auf die Schaltfläche "Website hinzufügen".
Geben Sie die Adresse des Online-Shops für die Datenanalyse an
Einrichten eines Parsers zum Empfangen von Daten aus einem Online-Shop
Die Reihenfolge des Parsers zum Herunterladen von Waren aus dem Online-Shop:
- Erhalten Sie Links zu Produktkategorien
- Produktlinks erhalten
- Holen Sie sich Produktkarten und speichern Sie die notwendigen Informationen
Nach dem Hinzufügen des Online-Shop-Parsers öffnet sich das Einstellungsfenster
Die Setup-Tabelle enthält die Arten von Operationen und die Liste der Felder, um darin Daten zu speichern. Vorgangstypen sind die Phasen des Parsers, um Daten von der Site abzurufen.
Um beispielsweise eine Liste von Produkten von der Website zu erhalten, müssen Sie Links zu Produktkategorien abrufen, damit der Parser eine Seite öffnen kann, um Informationen zu jedem Produkt abzurufen. Die erste Operation, die der Parser verwendet, ist also „Liste der Links zu den Produktkategorien".
Operationsarten:
- Liste mit Links zu Produktkategorien. Wird verwendet, um Links zu Produktkategorien zu erhalten.
- Liste mit Links zu Produkten. Wird verwendet, um Links zu Produkten zu erhalten.
- Kartenprodukt. Wird verwendet, um Produktinformationen zu erhalten. Wenn Sie diesen Vorgang ausführen, können Sie den Produktnamen, den Artikel des Herstellers, das Modell, die Garantie, den Namen des Herstellers, Fotos, Videobewertungen und andere Informationen von der Website abrufen.
- Produkteigenschaften. Wird verwendet, um Produktattribute zu erhalten.
Beschreibung der Rasterspalten zum Einrichten des Parsers
- Betriebswähler. Zeichen des Hauptselektors zum Empfangen von Daten von der Site, um diesen Vorgang auszuführen.
- Feldname. Der Name der Operation oder des Felds, in dem Daten gespeichert werden sollen.
- Selektor #1-4. Der Elbuz-Jumper-Parser verwendet CSS-Selektoren (Site-Stile) oder XPath (Abfragesprache für Site-Elemente), um Daten von Site-Seiten zu erhalten. Die Selektor-Felder geben die Bedingungen an, um die Blöcke zu finden, die Sie auf der Site benötigen, und Informationen von ihnen zu erhalten.
- Link zum Testen. Link zur Site-Seite zum Testen der Datenerfassung. Für jeden Vorgang wird ein Link zu einem separaten Abschnitt der Website angegeben. Beispielsweise wird für den Vorgang „Liste der Links zu Produktkategorien“ ein Link zur Hauptseite der Website angezeigt, auf der alle aufgelistet sind Produktkategorien. Um die Wareneingangsattribute für die Operation „Artikelkarte“ zu testen, wird eine Verknüpfung zur Ware angegeben.
- Text zum Aufräumen. Beim Abrufen von Daten zu bereinigende Schlüsselwörter. Wenn beispielsweise der Produktname auf der Website zusätzlichen Text enthält, den Sie nicht von der Website erhalten möchten, können Sie diesen Text im Feld „Zu bereinigender Text“ festlegen, um ihn zu entfernen.
- Finden. Suchtext.
- Ersetzen. Zu ersetzender Text (basierend auf gefundenem Text).
- HTML empfangen. Wenn es notwendig ist, die Formatierung des von der Site-Seite empfangenen Textes mithilfe von HTML-Tags beizubehalten, dann setzen Sie dieses Flag.
- Regulären Ausdruck. Sie können einen regulären Ausdruck verwenden, um den gewünschten Wert basierend auf dem über den Selektor empfangenen Text zu erhalten, dh die Zeichenfolge detaillierter in Komponenten zu zerlegen und am Ende das zu erhalten, was Sie benötigen.
- XPath. Aktivierung für den XPath-Abfragesprachmodusselektor.
- Die maximale Anzahl von Ergebnissen. Ermöglicht es Ihnen, den Download von Daten für Download-Tests einzuschränken, um nicht warten zu müssen, bis die gesamte Website heruntergeladen ist. Sie können festlegen, dass Sie nur 1 Link zu einer Kategorie erhalten und beispielsweise 2 Links zu Produkten erhalten, dafür können Sie Legen Sie die Anzahl der Ergebnisse für jede Operation fest.
- Waren in diesem Vorgang. Sie können Waren erhalten, ohne Produktkarten auf der Website zu öffnen. Dieser Modus ist nützlich, wenn Sie nur Preise für Waren und andere Werte erhalten möchten, die beim Auflisten von Waren in einer Kategorie verfügbar sind.
- Notiz. Eine Notiz für eine Einstellungszeichenfolge zum Beispiel, Sie können sich eine Erinnerung daran sparen, was diese Einstellung bedeutet.
Stufe Nummer 1. Abrufen einer Liste mit Links zu Produktkategorien
Um eine Liste mit Links zu Produktkategorien zu erhalten, müssen Sie die Linkauswahl finden, die zu der Kategorie führt. Kopieren Sie dazu den Link von der Website (normalerweise ist dies die Hauptseite der Website) in den "Link zum Testen". Feld und klicken Sie auf die Schaltfläche "T".
Es öffnet sich die Registerkarte „Test herunterladen“, auf der die Seite unter dem von Ihnen angegebenen Link angezeigt wird, auf der Produktkategorien zu sehen sein sollten. Die Ergebnisse der Arbeit des Parsers werden auf der linken Seite angezeigt. Ihre Aufgabe ist es, eine Liste mit Links zu Produktkategorien von der Website zu erhalten. Wenn der Parser erfolgreich konfiguriert ist, sehen Sie auf der linken Seite eine Liste mit Links zu Kategorien Bildschirm.
Beachtung! Download-Tests sind nur für Sites möglich, die das sichere https-Protokoll verwenden, nur für solche Sites können Sie den Empfang von Daten auf der Registerkarte "Download-Test" visuell überprüfen, während Sie das Parsen solcher Sites weiterhin konfigurieren können (mithilfe des nicht sicheren http-Protokoll), aber die visuelle Überprüfung beim Abrufen von Daten funktioniert nicht, d. h. alle Tags und Selektoren müssen "blind" (zufällig) eingegeben werden.
Um nach einer Linkauswahl für Produktkategorien zu suchen, klicken Sie mit der rechten Maustaste auf den Namen einer beliebigen Kategorie und wählen Sie "Code anzeigen". Anschließend öffnet sich ein Browserfenster mit dem Quellcode der Website. Sie können es beliebig positionieren, z. B. links oder unten auf dem Bildschirm
Sie können den Link auch in einem separaten Browser-Tab öffnen, wenn Sie mehr Platz auf dem Bildschirm benötigen, um nach der Produktlinkauswahl zu suchen, und dort dasselbe tun.
Wir suchen nach Blöcken von Produktkategorien und einem Link darin
Ihre Aufgabe ist es, Linkblöcke zu Produktkategorien zu finden. Nachdem Sie den Punkt "Code anzeigen" ausgewählt haben, öffnet der Browser den Quellcode der Website an der Stelle, an der die rechte Maustaste gedrückt wurde. In diesem Beispiel haben wir auf den Kategorienamen geklickt und wir sehen, dass die Links zu den Kategorien vorhanden sind befinden sich in den „div“- und „a“-Tags (das Bild unten kann zum Vergrößern angeklickt werden).
Wie Sie sehen können, hat jede Produktkategorie einen "div"-Block und enthält "a"-Links, während der "div"-Block den Stilnamen links-list (class="links-list") und den Link "a" enthält. hat den Stilnamen link ( class="link") .
Lassen Sie uns die Selektoren in den Parser-Einstellungen in dieser Form schreiben: Geben Sie die Tag-Namen getrennt durch ein Leerzeichen und die Stilnamen getrennt durch einen Punkt an. Sie können einfach das "a"-Tag und seinen Stil angeben, wenn es innerhalb der Seite für einen Link, der zu einer Produktkategorie führt, eindeutig ist (dann ist der 1. Absatz nicht erforderlich).
Wir überprüfen das Ergebnis, dazu drücken wir die Taste "T". Wie Sie im Beispiel sehen können, haben wir 74 Links zu Produktkategorien erhalten, d. h. unser Parser weiß bereits, wie man auf einer Drittanbieter-Website nach Kategorien sucht
Stufe Nummer 2. Abrufen einer Liste mit Produktlinks
Um eine Liste mit Produktlinks zu erhalten, müssen Sie die Produktlinkauswahl auf der Produktlistenseite in der Kategorie finden, eine beliebige Produktkategorie auf der Website öffnen und den Link in das Feld „Link zum Testen“ kopieren und dann auf klicken "T"-Taste
Die Registerkarte "Test herunterladen" wird geöffnet, auf der die Seite unter dem von Ihnen angegebenen Link angezeigt wird. Darauf sollte eine Liste der Produkte sichtbar sein. Die Ergebnisse der Arbeit des Parsers werden auf der linken Seite angezeigt. Ihre Aufgabe ist es, eine Liste mit Links zu Produkten von der Website zu erhalten. Wenn der Parser erfolgreich konfiguriert ist, sehen Sie auf der linken Seite des Bildschirms eine Liste mit Links.
Um nach einem Produkt-Link-Selektor zu suchen, klicken Sie mit der rechten Maustaste auf den Namen eines beliebigen Produkts und wählen Sie „Code anzeigen“, woraufhin ein Browserfenster mit dem Quellcode der Website geöffnet wird.
Wir suchen Warenblöcke und einen Link darin
Ihre Aufgabe ist es, Produktblöcke mit Links zur Produktkarte zu finden. Nachdem Sie den Punkt "Code anzeigen" ausgewählt haben, öffnet der Browser den Quellcode der Website an der Stelle, an der die rechte Maustaste gedrückt wurde. In diesem Beispiel haben wir auf den Produktnamen geklickt und wir sehen, dass sich die Produktlinks befinden in den "div"- und "a"-Tags .
Das heißt, jedes Produkt in den Suchergebnissen hat einen „div“-Block und enthält einen „a“-Link darin, während der „div“-Block den Kachelstilnamen hat (class="tile").
Das heißt, jedes Produkt in der Liste hat denselben Stil namens Kachel, und wir werden diese Informationen verwenden, um Links zu jedem Produkt zu erhalten.
Lassen Sie uns die Selektoren in den Parser-Einstellungen in dieser Form schreiben: Geben Sie den Stilnamen durch einen Punkt und das "a"-Tag getrennt durch ein Leerzeichen an
Wir überprüfen das Ergebnis, dazu drücken wir die Taste "T". Wie Sie im Beispiel sehen können, haben wir 28 Links zu Produkten erhalten, d. h. unser Parser weiß bereits, wie er Produkte auf einer Website eines Drittanbieters findet
Einrichtung der Seitennavigation (Paginierung)
Beim Öffnen einer Produktkategorie werden normalerweise nicht alle Produkte angezeigt, es können beispielsweise nur 28 Produkte angezeigt werden, die folgenden Produkte befinden sich auf Seite Nr. 2, dieser Modus wird Paginierung (Paginierung) genannt. Um Produktlinks auf anderen Seiten zu erhalten, müssen Sie eine Linkauswahl finden, die zur nächsten Seite führt, Sie müssen einen Navigationsblock auf der Seite finden, um zu anderen Seiten zu gelangen (Paginator), im Beispiel unten sieht dieser Block so aus dies und hat einen solchen Selektor
ul[name="paginator"] li a
Der gefundene Selektor zum Paginieren von Waren wird im Feld "Selektor Nr. 2" angezeigt.
Es gibt Seiten, auf denen die Paginierungslinks nicht den aktuellen Link zur Seite (Link zur Produktkategorie) enthalten, dann wird die Paginierung möglicherweise nicht korrekt bestimmt, ein Beispiel für eine falsche Definition, wenn der Link nur die Seitennummer enthält, Infolgedessen führt der Link zur Hauptseite der Website
Um dieses Problem zu lösen, müssen Sie die aktuelle Seitenadresse kennen. Sie müssen den Quellcode der Site öffnen und versuchen, die Adresse der aktuellen Seite zu finden. Wenn eine gefunden wird, müssen Sie im Feld Selektor Nr. 3 die Tags angeben, wie Sie sie beispielsweise erhalten "Breadcrumbs"-Block (Breadcrumbs): div. Breadcrumbs a. active
Stufe 2 kann verwendet werden, um nur eine Warenliste zu erhalten. Dieser Modus ist nützlich, wenn Sie nur Preise für Waren ohne Beschreibungen und technische Spezifikationen erhalten müssen. Eigenschaften und Fotos, während die Geschwindigkeit des Abrufens von Daten von der Website um ein Vielfaches höher ist (es ist nicht erforderlich, zu den Produktkarten auf der Website zu gehen). Um diesen Modus zu aktivieren, setzen Sie das Flag „Produkte in diesem Vorgang“ für den Vorgangstyp „Liste der Links zu Produkten“ und geben Sie dann die Selektoren für die Felder an, die von der Website ausgefüllt werden sollen. Dementsprechend müssen Sie den Dozenten nicht ausfüllen, um Links zu Produkten zu erhalten, sondern nur "Paginierung".
Stufe Nummer 3. Abrufen von Daten von der Produktkarte.
Analog zur Suche nach einem Produktlinkselektor müssen Sie Selektoren für die von Ihnen benötigten Felder in der Produktkarte finden, dazu schreiben wir einen Link zum Testprodukt in das Feld "Link zum Testen" und öffnen es
Sie müssen mit der rechten Maustaste auf den Produktnamen klicken und den Punkt "Code anzeigen" auswählen, woraufhin ein Browserfenster mit dem Quellcode der Site geöffnet wird.
Beispielsweise befindet sich der Produktname im h1-Tag
Schreiben wir den Selektor h1 in die Einstellungstabelle
Als nächstes suchen wir nach einem Selektor für den Preis des Produkts
Schreiben Sie den Selektor so
div. main-price span. price-number span
Als nächstes suchen wir nach einem Selektor für die Beschreibung des Produkts
Schreiben Sie den Selektor so
div[itemprop="Beschreibung"]
Für Links zu Fotos schreiben wir einen solchen Selektor vor
div. image img::attr(src)
Überprüfung des Ergebnisses
Stufe Nummer 4. Produktattribute erhalten.
Um Produktattribute abzurufen, müssen Sie einen Selektor für einen Attributblock (Tabelle) und einen Zeichenfolgenselektor angeben, der den Attributnamen und -wert enthält.
Verfahren:
- Geben Sie im Feld „Selektor Nr. 1“ den Selektor für den Attributblock an
- Geben Sie im Feld "Selektor Nr. 2" den Selektor für den Block an, der den Namen und Wert des Attributs enthält (d. h. für die Zeile der Attributtabelle).
- Geben Sie im Feld "Attributname" den Selektor an, in dem sich der Attributname befindet
- Geben Sie im Feld "Attributwert" den Selektor an, in dem sich der Attributwert befindet
Einstellungsbeispiel
Ein Beispiel für die Anpassung basierend auf dem Quellcode der Website
Das Ergebnis der Überprüfung des Eingangs von Produktattributen (Merkmale, Eigenschaften)
Wenn sich die Attribute auf einer separaten Seite befinden
Wenn sich die Attribute beispielsweise auf einer separaten Seite befinden, wird durch Klicken auf die Registerkarte „Features“ eine neue Seite geöffnet, dann gibt es zwei Lösungen, die alle darauf hinauslaufen, einen Link zu der Seite zu erhalten, auf der sich die Produktattribute befinden, damit die Programm kann es durchlaufen und Daten abrufen.
Option Nummer 1. Der Link befindet sich im HTML-Quellcode.
Selektor Nr. 3 muss für den Operationstyp „Produktattribute“ konfiguriert werden, um einen Link (oder einen Teil eines Links zu einer Attributseite) zu erhalten.
Wenn Sie beispielsweise auf eine Registerkarte auf der Website klicken, gibt es einen solchen HTML-Code, und der Selektor zum Abrufen des Links lautet: a. nav-tabs-link
Option Nummer 2. Dem Link zum Produkt wird ein Präfix vorangestellt, das nicht explizit im HTML-Quellcode steht.
Für den Operationstyp „Produktattribute“ ist es erforderlich, das Link-Präfix im Selektor Nr. 4 zu registrieren, um es dem Produktlink hinzuzufügen.
Sie können zum Beispiel schreiben: tab=Merkmale, dann öffnet das Programm einen Link zum Produkt + Präfix, wodurch der Parser zur Seite mit den Produktattributen geht. Was genau im Präfix vorzuschreiben ist, wird nach einer gründlichen Analyse der Website empirisch ermittelt.
Das Parsen beginnt mit dem Laden eines Produktkatalogs von einer Drittanbieter-Website.
Das Herunterladen von Waren von der Website des Online-Shops erfolgt in der folgenden Reihenfolge:
- Links zu Produktkategorien erhalten
- Links zu Produkten erhalten
- Wir erhalten Produktkarten und speichern die notwendigen Informationen
Legen Sie für Download-Tests die maximale Anzahl von Ergebnissen für Phasen fest, um die Datenanalyse von der Website des Online-Shops schnell zu überprüfen. In diesem Beispiel wird ein Link zu einer Produktkategorie mit einer Liste von Produkten geladen, aus der drei Produktlinks abgerufen werden
So erhalten Sie Produktoptionen
Im Elbuz-Programm sind Optionsprodukte virtuelle Produkte, die mit einem Hauptprodukt verknüpft sind, während dies auf der Quellseite eine Produktkarte mit einer Reihe von Optionen ist. Um Optionen zu erhalten, müssen Sie einen Selektor registrieren, um die Namen der Optionen zu erhalten, ein Kommatrennzeichen angeben und das Flag "Produktoption" setzen.
Beim Testen werden die Werte durch Kommas getrennt angezeigt
Nach dem Laden von Produkten von der Website werden 1 Hauptprodukt und mehrere Optionsprodukte für jeden auf der Website angegebenen Wert erstellt.
So schaben Sie eine Website
Es gibt mehrere Parsing-Modi:
- Geben Sie manuell Links zu den Kategorien oder Produkten an, die Sie benötigen.
Wenn Sie Produkte nur aus bestimmten Kategorien erhalten möchten, müssen Sie auf der Registerkarte "Linkliste" Links zu den erforderlichen Kategorien hinzufügen. Es ist auch möglich, Informationen nur zu den von Ihnen benötigten Produkten zu erhalten. Geben Sie dazu einen Link zum Produkt an und aktivieren Sie das Kontrollkästchen "Link zum Produkt". - Laden Sie eine Liste mit Links aus einer Datei, die Informationen von der Website erfordern. Die Datei muss im CSV-Format (Textdatei) vorliegen.
- Laden Sie Ihre Produkte in den Basiskatalog hoch und beginnen Sie mit der Suche nach Produkten auf der Website basierend auf Ihren Produkten. Das Programm fügt Ihren Produktnamen in die Suchleiste der Website ein und speichert das erhaltene Produkt in der Programmdatenbank. In diesem Modus ist es wichtig, dass Ihre Produktnamen mit den Namen auf der Website identisch sind oder ihnen sehr nahe kommen, da die Genauigkeit der Suche vom Algorithmus der Website selbst abhängt, ob sie das gewünschte Produkt finden kann oder nicht .
Gehen Sie folgendermaßen vor, um eine Liste mit Links aus einer Datei zu laden
Automatisierte Suche nach Ihren Produkten auf Websites
- Sie müssen in den Einstellungen einen Link zur Suche angeben. Der Link ist für jede Seite individuell. Um einen Link zu erhalten, geben Sie einen beliebigen Text in die Suchleiste auf der Website ein, kopieren Sie den Link ohne Text aus dem Browser, ein Beispiel für einen Link:
https://site.com/?search_text={NAME}
Anstelle von {NAME} ersetzt das Programm Ihr Schlüsselwort und generiert Links, um auf der Quellwebsite nach Ihrem Produkt zu suchen. Sie können auch die Makrosubstitution {SKU} angeben, sodass die Suche nach dem Wert aus dem Feld „Artikel des Herstellers“ statt nach dem Namen durchgeführt wird. - Aktivieren Sie die Option „Nach Ihren Produkten suchen“
Dies ist nur eine kurze Präsentation der Möglichkeiten des E-Trae Jumper-Programms, das die Prozesse eines modernen Online-Shops automatisiert.
Kontaktieren Sie uns für eine ausführliche Beratung zur Lösung Ihrer individuellen Probleme. Kontaktdaten finden Sie auf dieser Seite.
Programm für Online-Shop