Jak skonfigurować parser dla dowolnej witryny sklepu internetowego - uzyskanie katalogu towarów z cenami, opisami i zdjęciami
Jak działa parser e-commerce Elbuz
Wszystkie sklepy internetowe tworzone są przy użyciu języka HTML, jest to ustandaryzowany język znaczników stron w sieci World Wide Web, więc wszystkie strony wykorzystują te same elementy dla różnych bloków, parser Elbuz wykorzystuje ten standard do odbierania danych ze sklepu internetowego strona.
Lista najczęściej używanych tagów HTML znajdujących się na stronach sklepów internetowych:
- znacznik div. Uniwersalny element blokowy, który pozwala wybrać sekcję z treścią wizualną na stronie. Może to być lista produktów.
- Oznacz Wyświetla łącze do strony. Mogą to być linki do produktów w określonej kategorii.
- znacznik h1. Wyświetla nagłówek pierwszego poziomu (są też h2, h3, h4, h5, h6). Może to być nazwa produktu.
- znacznik p. Wyświetla akapit tekstowy. Może to być opis produktu.
- tag tabeli. Wyświetla tabelę. Może to być tabela atrybutów produktu.
- ul. Wyświetla listę punktowaną. Może to być krótki opis przedmiotu.
- tag obrazu. Przeznaczony do wyświetlania na stronie obrazu. Mogą to być zdjęcia produktów.
Tagi mogą zawierać nazwę stylu wizualnego wyświetlania informacji na stronie, na przykład określony styl blokowy pozwala wyświetlić pogrubiony tekst lub zielony kolor dla dowolnego elementu. Na podstawie tych ustandaryzowanych danych w systemie Elbuz możesz skonfigurować parser dla dowolnego sklepu internetowego, aby uzyskać potrzebne informacje, parser Elbuz korzysta z selektorów CSS (style projektowania witryny) lub XPath (język zapytań dla witryny elementów) do odbioru danych.
Aby rozpocząć, musisz zainstalować rozszerzenie dla przeglądarki Google Chrome, w tym celu kliknij ten link. Parsowanie jest możliwe tylko w przeglądarce Google Chrome. Jeśli link do Chrome Store nie działa, zainstaluj rozszerzenie ręcznie. Nie możesz również używać rozszerzenia przeglądarki, w tym celu musisz aktywować funkcję parsowania serwera.
Tworzenie nowego parsera
Aby skonfigurować parser, wykonaj następujące czynności:
- Otwórz cenniki.
- Kliknij przycisk Dodaj kontrahenta.
- Podaj nazwę witryny.
- Wybierz kartę Parser.
- Kliknij przycisk Dodaj witrynę.
- Podaj link do strony głównej serwisu.
- Określ selektory tagów.
Aby dodać nowy parser strony, otwórz okno "Cenniki", kliknij przycisk "+" i wybierz "Dodaj kontrahenta"
Podaj nazwę kontrahenta (sklep internetowy) i wybierz grupę, domyślnie dostępne są następujące grupy: Dostawca, Konkurent, Klient.
Po dodaniu kontrahenta zostaniesz poproszony o wybranie skąd chcesz pobrać dane, na tej liście wybierz pozycję „Parser strony” i kliknij przycisk „Dodaj stronę”
Podaj adres sklepu internetowego do parsowania danych
Konfiguracja parsera do odbierania danych ze sklepu internetowego
Zlecenie parsera do pobrania towaru ze sklepu internetowego:
- Uzyskaj linki do kategorii produktów
- Uzyskaj linki do produktów
- Zdobądź karty produktów i zapisz niezbędne informacje
Po dodaniu parsera sklepu internetowego otworzy się okno ustawień
Tabela konfiguracji zawiera typy operacji oraz listę pól do przechowywania w nich danych. Typy operacji to etapy parsera służące do pobierania danych z witryny.
Na przykład, aby uzyskać listę produktów z witryny, musisz pobrać linki do kategorii produktów, aby parser mógł otworzyć stronę i uzyskać informacje o każdym produkcie, więc pierwszą operacją, której użyje parser, jest "Lista linków do kategorii produktów".
Rodzaje operacji:
- Lista linków do kategorii produktów. Służy do uzyskiwania linków do kategorii produktów.
- Lista linków do produktów. Służy do uzyskiwania linków do produktów.
- Karta Produktu. Służy do uzyskiwania informacji o produkcie. Podczas wykonywania tej operacji możesz uzyskać nazwę produktu, artykuł producenta, model, gwarancję, nazwę producenta, zdjęcia, recenzje wideo i inne informacje ze strony.
- Cechy produktu. Służy do uzyskiwania atrybutów produktu.
Opis kolumn siatki do konfiguracji parsera
- Selektor operacji. Znak głównego selektora do odbierania danych z serwisu w celu wykonania tej operacji.
- Nazwa pola. Nazwa operacji lub pola do przechowywania danych.
- Selektor #1-4. Parser Elbuz wykorzystuje selektory CSS (style witryn) lub XPath (język zapytań dla elementów witryny) do odbierania danych ze stron witryny. Pola selektora określają warunki wyszukiwania potrzebnych bloków na witrynie i uzyskiwania z nich informacji.
- Link do testów. Link do strony witryny do testowania akwizycji danych. Dla każdej operacji wskazany jest link do osobnej sekcji serwisu, np. dla operacji „Lista linków do kategorii produktów” wskazany jest link do strony głównej serwisu, gdzie znajduje się lista wszystkich Kategorie produktów. Aby przetestować odbiór atrybutów towarów dla operacji „Karta towaru”, podawany jest link do towaru.
- Tekst do oczyszczenia. Słowa kluczowe do oczyszczenia podczas pobierania danych. Na przykład w nazwie produktu w witrynie znajduje się dodatkowy tekst, którego nie chcesz otrzymywać z witryny, możesz ustawić ten tekst w polu „Tekst do oczyszczenia”, aby go usunąć.
- Znaleźć. Wyszukaj tekst.
- Zastąpić. Tekst do zastąpienia (na podstawie znalezionego tekstu).
- Odbierz kod HTML. Jeśli konieczne jest zachowanie formatowania tekstu otrzymanego ze strony witryny za pomocą tagów html, ustaw tę flagę.
- Wyrażenie regularne. Możesz użyć wyrażenia regularnego, aby uzyskać żądaną wartość na podstawie tekstu otrzymanego przez selektor, to znaczy przeanalizować ciąg na składniki bardziej szczegółowo i uzyskać na końcu to, czego potrzebujesz.
- Ścieżka XP. Aktywacja selektora trybu języka zapytań XPath.
- Maksymalna liczba wyników. Pozwala ograniczyć pobieranie danych do testowania pobierania, aby nie czekać, aż cała witryna zostanie pobrana, możesz ustawić otrzymywanie tylko 1 linku do kategorii i otrzymywanie na przykład 2 linków do produktów, w tym celu możesz ustaw liczbę wyników dla każdej operacji.
- Towar w tej operacji. Możesz odbierać towary bez otwierania kart produktów na stronie. Ten tryb przyda się, jeśli chcesz uzyskać tylko ceny towarów i inne wartości, które są dostępne podczas wystawiania towarów w danej kategorii.
- Notatka. Notatka dotycząca ciągu ustawień, na przykład, możesz zapisać sobie przypomnienie, co oznacza to ustawienie.
Etap nr 1. Uzyskiwanie listy linków do kategorii produktów
Aby uzyskać listę linków do kategorii produktów, musisz znaleźć selektor linków, który prowadzi do kategorii, w tym celu skopiuj link z witryny (zazwyczaj jest to strona główna witryny) do "Link do testowania" i kliknij przycisk „T”
Otworzy się zakładka „Pobierz testy”, w której wyświetli się strona pod wskazanym linkiem, kategorie produktów powinny być na niej widoczne. Wyniki pracy parsera są wyświetlane po lewej stronie Twoim zadaniem jest pobranie ze strony listy linków do kategorii produktów, jeśli parser zostanie poprawnie skonfigurowany, po lewej stronie zobaczysz listę linków do kategorii ekran.
Uwaga! Testowanie pobierania jest możliwe tylko dla witryn korzystających z bezpiecznego protokołu https, tylko dla takich witryn można wizualnie sprawdzić odbiór danych w zakładce „Testowanie pobierania”, natomiast nadal można skonfigurować parsowanie takich witryn (za pomocą niezabezpieczonego protokołu http), ale wizualnie sprawdź, czy pobieranie danych nie zadziała, to znaczy wszystkie tagi i selektory należy wpisać „na ślepo” (losowo).
Aby wyszukać selektor linków dla kategorii produktów, kliknij prawym przyciskiem myszy nazwę dowolnej kategorii i wybierz „Wyświetl kod”, po czym otworzy się okno przeglądarki z kodem źródłowym witryny. Możesz ustawić go tak, jak chcesz, na przykład po lewej lub u dołu ekranu
Możesz również otworzyć link w osobnej karcie przeglądarki, jeśli potrzebujesz więcej miejsca na ekranie, aby wyszukać selektor linków do produktu i zrobić to samo tam.
Szukamy bloków kategorii produktów i linku w nich
Twoim zadaniem jest znalezienie bloków linków do kategorii produktów. Po wybraniu pozycji „Wyświetl kod” przeglądarka otworzy kod źródłowy strony w miejscu, w którym został naciśnięty prawy przycisk myszy, w tym przykładzie kliknęliśmy w nazwę kategorii i widzimy, że linki do kategorii znajdują się w znacznikach „div” i „a” (zdjęcie poniżej można kliknąć, aby powiększyć).
Jak widać, każda kategoria produktów ma blok "div" i zawiera linki "a", podczas gdy blok "div" ma nazwę stylu links-list (class="links-list") oraz link "a" ma link do nazwy stylu ( class="link") .
Zapiszmy selektory w ustawieniach parsera w następujący sposób: określ nazwy tagów oddzielone spacją i określ nazwy stylów oddzielone kropką. Możesz po prostu określić tag „a” i jego styl, jeśli jest unikalny na stronie dla linku prowadzącego do kategorii produktu (wtedy pierwszy akapit nie jest wymagany).
Sprawdzamy wynik, w tym celu naciskamy przycisk „T”. Jak widać na przykładzie, otrzymaliśmy 74 linki do kategorii produktów, czyli nasz parser już wie, jak wyszukiwać kategorie na stronie innej firmy
Etap nr 2. Uzyskiwanie listy linków do produktów
Aby uzyskać listę linków do produktów, musisz znaleźć selektor linków do produktów na stronie z listą produktów w kategorii, otworzyć dowolną kategorię produktów w witrynie i skopiować link w polu „Link do testowania”, a następnie kliknąć Przycisk „T”
Otworzy się zakładka "Pobierz testy", w której wyświetli się strona pod wskazanym linkiem, powinna być na niej widoczna lista produktów. Wyniki pracy parsera wyświetlane są po lewej stronie Twoim zadaniem jest pobranie listy linków do produktów z serwisu, jeśli parser zostanie poprawnie skonfigurowany, po lewej stronie ekranu pojawi się lista linków.
Aby wyszukać selektor linku do produktu, kliknij prawym przyciskiem myszy nazwę dowolnego produktu i wybierz „Wyświetl kod”, po czym otworzy się okno przeglądarki z kodem źródłowym witryny.
Szukamy bloków towaru i linku w nich
Twoim zadaniem jest znalezienie bloków produktów z linkami do karty produktu. Po wybraniu pozycji „Wyświetl kod” przeglądarka otworzy kod źródłowy strony w miejscu, w którym został naciśnięty prawy przycisk myszy, w tym przykładzie kliknęliśmy w nazwę produktu i widzimy, że znajdują się linki do produktów w znacznikach „div” i „a” .
Oznacza to, że każdy produkt w wynikach wyszukiwania ma blok „div” i zawiera w nim łącze „a”, podczas gdy blok „div” ma nazwę stylu kafelka (class="tile").
Oznacza to, że każdy produkt na liście ma ten sam styl zwany kafelkiem, a my wykorzystamy te informacje, aby uzyskać linki do każdego produktu.
Zapiszmy selektory w ustawieniach parsera w tej formie: określ nazwę stylu za pomocą kropki i tagu „a” oddzielone spacją
Sprawdzamy wynik, w tym celu naciskamy przycisk „T”. Jak widać na przykładzie, otrzymaliśmy 28 linków do produktów, czyli nasz parser już wie, jak znaleźć produkty na stronie trzeciej
Konfiguracja nawigacji po stronach (paginacja)
Podczas otwierania kategorii produktów zwykle nie wyświetlają się wszystkie produkty, na przykład można wyświetlić tylko 28 produktów, następujące produkty znajdują się na stronie nr 2, ten tryb nazywa się paginacją (paginacją). Aby uzyskać linki do produktów na innych stronach, musisz znaleźć selektor linków, który prowadzi do następnej strony, musisz znaleźć blok nawigacyjny na stronie, aby przejść do innych stron (paginator), w poniższym przykładzie ten blok wygląda tak to i ma taki selektor
ul[nazwa="paginator"] li a
Znaleziony selektor do paginacji towarów jest wskazany w polu „Selektor nr 2”
Zdarzają się serwisy, na których linki do paginacji nie zawierają aktualnego linku do strony (link do kategorii produktowej), wówczas paginacja może nie być poprawnie określona, przykład błędnej definicji, gdy link zawiera tylko numer strony, w rezultacie link będzie prowadzić do strony głównej witryny
Aby rozwiązać ten problem, musisz znać aktualny adres strony. Należy otworzyć kod źródłowy serwisu i spróbować znaleźć adres do bieżącej strony, jeśli taki zostanie znaleziony, to w polu Selector nr 3 należy określić tagi, w jaki sposób go uzyskać, na przykład z Blok "bułka tarta" (bułka tarta): div. bułka tarta a. active
W etapie 2 można uzyskać tylko listę towarów, ten tryb przyda się, gdy trzeba uzyskać tylko ceny towarów, bez opisów, specyfikacji technicznych. charakterystyk i zdjęć, natomiast szybkość pozyskiwania danych ze strony będzie wielokrotnie wyższa (nie ma potrzeby przechodzenia do kart produktów na stronie). Aby aktywować ten tryb należy ustawić flagę "Produkty w tej operacji" dla typu operacji "Lista linków do produktów", a następnie określić selektory dla pól do wypełnienia z serwisu. W związku z tym nie trzeba wypełniać wykładowcy, aby uzyskać linki do produktów, a jedynie uzyskać „paginację”.
Etap nr 3. Pobieranie danych z karty produktu.
Analogicznie do wyszukiwania selektora linku do produktu, musisz znaleźć selektory dla potrzebnych pól w karcie produktu, w tym celu w polu „Link do testowania” wpisujemy link do testowanego produktu i otwieramy go
Musisz kliknąć prawym przyciskiem myszy nazwę produktu i wybrać element „Wyświetl kod”, po czym otworzy się okno przeglądarki z kodem źródłowym witryny.
Na przykład nazwa produktu znajduje się w tagu h1
Zapiszmy selektor h1 w tabeli ustawień
Następnie szukamy selektora ceny produktu
Napisz selektor w ten sposób
div. main-price span. price-number span
Następnie szukamy selektora do opisu produktu
Napisz selektor w ten sposób
div[itemprop="opis"]
W przypadku linków do zdjęć przepisujemy taki selektor
div. image img::attr(src)
Sprawdzanie wyniku
Etap nr 4. Uzyskiwanie atrybutów produktu.
Aby uzyskać atrybuty produktu, należy określić selektor dla bloku atrybutów (tabeli) oraz selektor ciągu, który zawiera nazwę i wartość atrybutu.
Procedura:
- W polu „Selektor nr 1” określ selektor dla bloku atrybutów
- W polu „Selektor nr 2” określ selektor dla bloku zawierającego nazwę i wartość atrybutu (czyli dla wiersza tabeli atrybutów)
- W polu „Nazwa atrybutu” określ selektor, w którym znajduje się nazwa atrybutu
- W polu „Wartość atrybutów” określ selektor, w którym znajduje się wartość atrybutu
Przykład ustawienia
Przykład personalizacji na podstawie kodu źródłowego witryny
Wynik sprawdzenia odbioru atrybutów produktu (cechy, właściwości)
Jeśli atrybuty znajdują się na osobnej stronie
Jeśli atrybuty znajdują się na osobnej stronie, na przykład kliknięcie w zakładkę „Funkcje” otwiera nową stronę, to istnieją dwa rozwiązania, wszystkie sprowadzają się do uzyskania linku do strony, na której znajdują się atrybuty produktu, tak aby program może przez to przejść i uzyskać dane.
Numer opcji 1. Link znajduje się w kodzie źródłowym html.
Selektor nr 3 musi być skonfigurowany dla typu operacji „Atrybuty produktu”, aby uzyskać łącze (lub część łącza do strony atrybutów).
Np. po kliknięciu na zakładkę na stronie jest taki kod html, to selektorem do uzyskania linku będzie: a. nav-tabs-link
Opcja nr 2. Do linku do produktu dodawany jest prefiks, który nie znajduje się wprost w kodzie źródłowym html.
Dla operacji typu "Atrybuty produktu" konieczne jest zarejestrowanie prefiksu linku w selektorze nr 4, aby dodać go do linku produktu.
Na przykład możesz napisać: tab=charakterystyka, wtedy program otworzy link do produktu + prefiks, tym samym parser przejdzie do strony atrybutów produktu. Co dokładnie przepisać w prefiksie, ustala się empirycznie po dokładnej analizie strony.
Rozpoczęcie analizowania od załadowania katalogu produktów z witryny innej firmy.
Pobieranie towarów ze strony sklepu internetowego odbywa się w następującej kolejności:
- Uzyskiwanie linków do kategorii produktów
- Uzyskiwanie linków do produktów
- Otrzymujemy karty produktowe i zapisujemy niezbędne informacje
W przypadku testowania pobierania ustaw maksymalną liczbę wyników dla etapów, aby szybko sprawdzić parsowanie danych ze strony sklepu internetowego. W tym przykładzie zostanie załadowany jeden link do kategorii produktów z listą produktów, z którego zostaną uzyskane trzy linki do produktów
Jak uzyskać opcje produktu
W programie Elbuz produkty opcjonalne to produkty wirtualne, które są powiązane z jednym głównym produktem, podczas gdy na stronie źródłowej jest to jedna karta produktu z zestawem opcji. Aby uzyskać opcje, musisz zarejestrować selektor, aby uzyskać nazwy opcji, określić separator przecinków i ustawić flagę "Opcja produktu"
Podczas testowania wartości będą wyświetlane oddzielone przecinkami
Po załadowaniu produktów ze strony, dla każdej wartości określonej na stronie zostanie utworzony 1 produkt główny i kilka produktów opcjonalnych.
Jak zeskrobać witrynę
Istnieje kilka trybów parsowania:
- Podaj ręcznie linki do potrzebnych kategorii lub produktów.
Jeśli chcesz otrzymywać produkty tylko z określonych kategorii, musisz dodać linki do niezbędnych kategorii w zakładce "Lista linków". Możliwe jest również otrzymywanie informacji tylko o produktach, których potrzebujesz, w tym celu podaj link do produktu i zaznacz flagę "Link do produktu".
- Załaduj listę linków z pliku, które wymagają informacji z witryny. Plik musi być w formacie CSV (plik tekstowy).
- Prześlij swoje produkty do katalogu bazowego i rozpocznij wyszukiwanie produktów na stronie na podstawie Twoich produktów, program wstawi nazwę Twojego produktu w wyszukiwarkę strony i zapisze otrzymany produkt w bazie danych programu. W tym trybie ważne jest, aby nazwy Twoich produktów były identyczne z nazwami w witrynie lub bardzo do nich zbliżone, ponieważ dokładność wyszukiwania zależy od algorytmu samej witryny, od tego, czy może on znaleźć produkt, którego potrzebujesz, czy nie .
Aby załadować listę linków z pliku, wykonaj następujące kroki
Automatyczne wyszukiwanie Twoich produktów na stronach internetowych
- Musisz podać link do wyszukiwania w ustawieniach. Link jest indywidualny dla każdej witryny. Aby uzyskać link, wpisz dowolny tekst w pasku wyszukiwania na stronie, skopiuj link bez tekstu z przeglądarki, przykładowy link:
https://site.com/?search_text={NAME}
Zamiast {NAME} program zastąpi Twoje słowo kluczowe i wygeneruje linki do wyszukania Twojego produktu w witrynie źródłowej. Możesz również określić podstawienie makra {SKU}, aby wyszukiwanie odbywało się na podstawie wartości z pola „Artykuł producenta”, a nie nazwy. - Aktywuj opcję "Wyszukaj swoje produkty"
To tylko krótka prezentacja możliwości programu E-Trae Jumper, który automatyzuje procesy nowoczesnego sklepu internetowego.
Skontaktuj się z nami, aby uzyskać szczegółowe konsultacje dotyczące rozwiązania Twoich indywidualnych problemów. Dane kontaktowe znajdują się na tej stronie.
Program dla sklepu internetowego