Aby skonfigurować parser, wykonaj następujące czynności:
- Otwórz cenniki.
- Kliknij przycisk Dodaj kontrahenta.
- Podaj nazwę witryny.
- Wybierz kartę Parser.
- Kliknij przycisk Dodaj witrynę.
- Podaj link do strony głównej serwisu.
- Określ selektory tagów.
Aby dodać nowy parser strony, otwórz okno "Cenniki", kliknij przycisk "+" i wybierz "Dodaj kontrahenta"

Podaj nazwę kontrahenta (sklep internetowy) i wybierz grupę, domyślnie dostępne są następujące grupy: Dostawca, Konkurent, Klient.

Po dodaniu kontrahenta zostaniesz poproszony o wybranie skąd chcesz pobrać dane, na tej liście wybierz pozycję "Site Parser" i kliknij przycisk "Dodaj stronę"

Podaj adres sklepu internetowego do parsowania danych

Konfiguracja parsera do odbierania danych ze sklepu internetowego
Zlecenie parsera do pobrania towaru ze sklepu internetowego:
- Uzyskaj linki do kategorii produktów
- Uzyskaj linki do produktów
- Zdobądź karty produktów i zapisz niezbędne informacje
Po dodaniu parsera sklepu internetowego otworzy się okno ustawień

Tabela konfiguracji zawiera typy operacji oraz listę pól do przechowywania w nich danych. Typy operacji to etapy parsera służące do pobierania danych z witryny.
Na przykład, aby uzyskać listę produktów z witryny, musisz pobrać linki do kategorii produktów, aby parser mógł otworzyć stronę i uzyskać informacje o każdym produkcie, więc pierwszą operacją, której użyje parser, jest "Lista linków do kategorii produktów".
Rodzaje operacji:
- Lista linków do kategorii produktów. Służy do uzyskiwania linków do kategorii produktów.
- Lista linków do produktów. Służy do uzyskiwania linków do produktów.
- Karta Produktu. Służy do uzyskiwania informacji o produkcie. Podczas wykonywania tej operacji możesz uzyskać nazwę produktu, artykuł producenta, model, gwarancję, nazwę producenta, zdjęcia, recenzje wideo i inne informacje ze strony.
- Cechy produktu. Służy do uzyskiwania atrybutów produktu.
Opis kolumn siatki do konfiguracji parsera

- Selektor operacji. Znak głównego selektora do odbierania danych z serwisu w celu wykonania tej operacji.
- Nazwa pola. Nazwa operacji lub pola do przechowywania danych.
- Selektor #1-4. Parser E-Trade Jumper wykorzystuje selektory CSS (style witryn) lub XPath (język zapytań dla elementów witryny) do odbierania danych ze stron witryny. Pola selektora określają warunki wyszukiwania potrzebnych bloków na witrynie i uzyskiwania z nich informacji.
- Link do testów. Link do strony witryny do testowania akwizycji danych. Dla każdej operacji wskazany jest link do osobnej sekcji serwisu, np. dla operacji „Lista linków do kategorii produktów” wskazany jest link do strony głównej serwisu, gdzie znajduje się lista wszystkich Kategorie produktów. Aby przetestować odbiór atrybutów towarów dla operacji „Karta towaru”, podawany jest link do towaru.
- Tekst do oczyszczenia. Słowa kluczowe do oczyszczenia podczas pobierania danych. Na przykład w nazwie produktu w witrynie znajduje się dodatkowy tekst, którego nie chcesz otrzymywać z witryny, możesz ustawić ten tekst w polu „Tekst do oczyszczenia”, aby go usunąć.
- Znaleźć. Wyszukaj tekst.
- Zastąpić. Tekst do zastąpienia (na podstawie znalezionego tekstu).
- Odbierz kod HTML. Jeśli konieczne jest zachowanie formatowania tekstu otrzymanego ze strony witryny za pomocą tagów html, ustaw tę flagę.
- Wyrażenie regularne. Możesz użyć wyrażenia regularnego, aby uzyskać żądaną wartość na podstawie tekstu otrzymanego przez selektor, to znaczy przeanalizować ciąg na składniki bardziej szczegółowo i uzyskać na końcu to, czego potrzebujesz.
- Ścieżka XP. Aktywacja selektora trybu języka zapytań XPath.
- Maksymalna liczba wyników. Pozwala ograniczyć pobieranie danych do testowania pobierania, aby nie czekać, aż cała witryna zostanie pobrana, możesz ustawić otrzymywanie tylko 1 linku do kategorii i otrzymywanie na przykład 2 linków do produktów, w tym celu możesz ustaw liczbę wyników dla każdej operacji.
- Towar w tej operacji. Możesz odbierać towary bez otwierania kart produktów na stronie. Ten tryb przyda się, jeśli chcesz uzyskać tylko ceny towarów i inne wartości, które są dostępne podczas wystawiania towarów w danej kategorii.
- Notatka. Notatka dotycząca ciągu ustawień, na przykład, możesz zapisać sobie przypomnienie, co oznacza to ustawienie.
Selektory mogą mieć postać tagów html i stylów CSS (style projektowania witryn), a także języka zapytań dla elementów witryny XPath. Aby aktywować tryb XPath w siatce, ustaw tę flagę dla pola lub operacji, której potrzebujesz

Etap nr 1. Uzyskiwanie listy linków do kategorii produktów
Aby uzyskać listę linków do kategorii produktów, musisz znaleźć selektor linków, który prowadzi do kategorii, w tym celu skopiuj link z witryny (zazwyczaj jest to strona główna witryny) do "Link do testowania" i kliknij przycisk „T”

Otworzy się zakładka „Pobierz testy”, w której wyświetli się strona pod wskazanym linkiem, kategorie produktów powinny być na niej widoczne. Wyniki pracy parsera są wyświetlane po lewej stronie Twoim zadaniem jest pobranie ze strony listy linków do kategorii produktów, jeśli parser zostanie poprawnie skonfigurowany, po lewej stronie zobaczysz listę linków do kategorii ekran.
Uwaga! Testowanie pobierania jest możliwe tylko dla witryn korzystających z bezpiecznego protokołu https, tylko dla takich witryn można wizualnie sprawdzić odbiór danych w zakładce „Testowanie pobierania”, natomiast nadal można skonfigurować parsowanie takich witryn (za pomocą niezabezpieczonego protokołu http), ale wizualnie sprawdź, czy pobieranie danych nie zadziała, to znaczy wszystkie tagi i selektory należy wpisać „na ślepo” (losowo).

Aby wyszukać selektor linków dla kategorii produktów, kliknij prawym przyciskiem myszy nazwę dowolnej kategorii i wybierz „Wyświetl kod”, po czym otworzy się okno przeglądarki z kodem źródłowym witryny. Możesz ustawić go tak, jak chcesz, na przykład po lewej lub u dołu ekranu

Możesz również otworzyć link w osobnej karcie przeglądarki, jeśli potrzebujesz więcej miejsca na ekranie, aby wyszukać selektor linków do produktu i zrobić to samo tam.
Szukamy bloków kategorii produktów i linku w nich
Twoim zadaniem jest znalezienie bloków linków do kategorii produktów. Po wybraniu pozycji „Wyświetl kod” przeglądarka otworzy kod źródłowy strony w miejscu, w którym został naciśnięty prawy przycisk myszy, w tym przykładzie kliknęliśmy w nazwę kategorii i widzimy, że linki do kategorii znajdują się w znacznikach „div” i „a” (zdjęcie poniżej można kliknąć, aby powiększyć).

Jak widać, każda kategoria produktów ma blok "div" i zawiera linki "a", podczas gdy blok "div" ma nazwę stylu links-list (class="links-list") oraz link "a" ma link do nazwy stylu ( class="link") .
Zapiszmy selektory w ustawieniach parsera w następujący sposób: określ nazwy tagów oddzielone spacją i określ nazwy stylów oddzielone kropką. Możesz po prostu określić tag „a” i jego styl, jeśli jest unikalny na stronie dla linku prowadzącego do kategorii produktu (wtedy pierwszy akapit nie jest wymagany).

Sprawdzamy wynik, w tym celu naciskamy przycisk „T”. Jak widać na przykładzie, otrzymaliśmy 74 linki do kategorii produktów, czyli nasz parser już wie, jak wyszukiwać kategorie na stronie innej firmy

Etap nr 2. Uzyskiwanie listy linków do produktów
Aby uzyskać listę linków do produktów, musisz znaleźć selektor linków do produktów na stronie z listą produktów w kategorii, otworzyć dowolną kategorię produktów w witrynie i skopiować link w polu „Link do testowania”, a następnie kliknąć Przycisk „T”

Otworzy się zakładka "Pobierz testy", w której wyświetli się strona pod wskazanym linkiem, powinna być na niej widoczna lista produktów. Wyniki pracy parsera wyświetlane są po lewej stronie Twoim zadaniem jest pobranie listy linków do produktów z serwisu, jeśli parser zostanie poprawnie skonfigurowany, po lewej stronie ekranu pojawi się lista linków.

Aby wyszukać selektor linku do produktu, kliknij prawym przyciskiem myszy nazwę dowolnego produktu i wybierz „Wyświetl kod”, po czym otworzy się okno przeglądarki z kodem źródłowym witryny.
Szukamy bloków towaru i linku w nich
Twoim zadaniem jest znalezienie bloków produktów z linkami do karty produktu. Po wybraniu pozycji „Wyświetl kod” przeglądarka otworzy kod źródłowy strony w miejscu, w którym został naciśnięty prawy przycisk myszy, w tym przykładzie kliknęliśmy w nazwę produktu i widzimy, że znajdują się linki do produktów w znacznikach „div” i „a” .
Oznacza to, że każdy produkt w wynikach wyszukiwania ma blok „div” i zawiera w nim łącze „a”, podczas gdy blok „div” ma nazwę stylu kafelka (class="tile").

Oznacza to, że każdy produkt na liście ma ten sam styl zwany kafelkiem, a my wykorzystamy te informacje, aby uzyskać linki do każdego produktu.
Zapiszmy selektory w ustawieniach parsera w tej formie: określ nazwę stylu za pomocą kropki i tagu „a” oddzielone spacją

Sprawdzamy wynik, w tym celu naciskamy przycisk „T”. Jak widać na przykładzie, otrzymaliśmy 28 linków do produktów, czyli nasz parser już wie, jak znaleźć produkty na stronie trzeciej

Konfiguracja nawigacji po stronach (paginacja)
Podczas otwierania kategorii produktów zwykle nie wyświetlają się wszystkie produkty, na przykład można wyświetlić tylko 28 produktów, następujące produkty znajdują się na stronie nr 2, ten tryb nazywa się paginacją (paginacją). Aby uzyskać linki do produktów na innych stronach, musisz znaleźć selektor linków, który prowadzi do następnej strony, musisz znaleźć blok nawigacyjny na stronie, aby przejść do innych stron (paginator), w poniższym przykładzie ten blok wygląda tak to i ma taki selektor
ul[nazwa="paginator"] li a

Znaleziony selektor do paginacji towarów jest wskazany w polu „Selektor nr 2”

Zdarzają się serwisy, na których linki do paginacji nie zawierają aktualnego linku do strony (link do kategorii produktowej), wówczas paginacja może nie być poprawnie zdefiniowana, przykład błędnej definicji, gdy link zawiera tylko numer strony, w rezultacie link będzie prowadzić do strony głównej witryny

Aby rozwiązać ten problem, musisz znać aktualny adres strony. Należy otworzyć kod źródłowy witryny i spróbować znaleźć adres do bieżącej strony, jeśli taki zostanie znaleziony, to w polu Selector nr 3 należy określić tagi, w jaki sposób go uzyskać, na przykład z Blok "bułka tarta" (bułka tarta): div. bułka tarta a. active

W etapie 2 można uzyskać tylko listę towarów, ten tryb przyda się, gdy trzeba uzyskać tylko ceny towarów, bez opisów, specyfikacji technicznych. charakterystyk i zdjęć, natomiast szybkość pozyskiwania danych ze strony będzie wielokrotnie wyższa (nie ma potrzeby przechodzenia do kart produktów na stronie). Aby aktywować ten tryb należy ustawić flagę "Produkty w tej operacji" dla typu operacji "Lista linków do produktów", a następnie określić selektory dla pól do wypełnienia z serwisu. W związku z tym nie trzeba wypełniać wykładowcy, aby uzyskać linki do produktów, a jedynie uzyskać „paginację”.

Etap nr 3. Pobieranie danych z karty produktu.
Analogicznie do wyszukiwania selektora linku do produktu, musisz znaleźć selektory dla potrzebnych Ci pól w karcie produktu, w tym celu wpisujemy link do testowanego produktu w polu "Link do testowania" i otwieramy go

Musisz kliknąć prawym przyciskiem myszy nazwę produktu i wybrać element „Wyświetl kod”, po czym otworzy się okno przeglądarki z kodem źródłowym witryny.
Na przykład nazwa produktu znajduje się w tagu h1

Zapiszmy selektor h1 w tabeli ustawień

Następnie szukamy selektora ceny produktu

Napisz selektor w ten sposób
div. main-price span. price-number span

Następnie szukamy selektora do opisu produktu

Napisz selektor w ten sposób
div[itemprop="opis"]

W przypadku linków do zdjęć przepisujemy taki selektor
div. image img::attr(src)
Sprawdzanie wyniku

Etap nr 4. Uzyskiwanie atrybutów produktu.
Aby uzyskać atrybuty produktu, należy określić selektor dla bloku atrybutów (tabeli) oraz selektor ciągu, który zawiera nazwę i wartość atrybutu.
Procedura:
- W polu „Selektor nr 1” określ selektor dla bloku atrybutów
- W polu „Selektor nr 2” określ selektor dla bloku zawierającego nazwę i wartość atrybutu (czyli dla wiersza tabeli atrybutów)
- W polu „Nazwa atrybutu” określ selektor, w którym znajduje się nazwa atrybutu
- W polu „Wartość atrybutów” określ selektor, w którym znajduje się wartość atrybutu

Przykład ustawienia

Przykład personalizacji na podstawie kodu źródłowego witryny

Wynik sprawdzenia odbioru atrybutów produktu (cechy, właściwości)

Jeśli atrybuty znajdują się na osobnej stronie.
Jeśli atrybuty znajdują się na osobnej stronie, na przykład kliknięcie w zakładkę „Funkcje” otwiera nową stronę, to istnieją dwa rozwiązania, wszystkie sprowadzają się do uzyskania linku do strony, na której znajdują się atrybuty produktu, tak aby program może przez to przejść i uzyskać dane.
Numer opcji 1. Link znajduje się w kodzie źródłowym html.
Selektor nr 3 musi być skonfigurowany dla typu operacji „Atrybuty produktu”, aby uzyskać łącze (lub część łącza do strony atrybutów).
Np. po kliknięciu na zakładkę na stronie jest taki kod html, to selektorem do uzyskania linku będzie: a. nav-tabs-link

Opcja nr 2. Do linku do produktu dodawany jest prefiks, który nie znajduje się wprost w kodzie źródłowym html.
Dla operacji typu "Atrybuty produktu" konieczne jest zarejestrowanie prefiksu linku w selektorze nr 4, aby dodać go do linku produktu.
Na przykład możesz napisać: tab=charakterystyka, wtedy program otworzy link do produktu + prefiks, tym samym parser przejdzie do strony atrybutów produktu. Co dokładnie przepisać w prefiksie, ustala się empirycznie po dokładnej analizie strony.
Rozpoczęcie analizowania od załadowania katalogu produktów z witryny innej firmy.
Pobieranie towarów ze strony sklepu internetowego odbywa się w następującej kolejności:
- Uzyskiwanie linków do kategorii produktów
- Uzyskiwanie linków do produktów
- Otrzymujemy karty produktowe i zapisujemy niezbędne informacje

W przypadku testowania pobierania ustaw maksymalną liczbę wyników dla etapów, aby szybko sprawdzić parsowanie danych ze strony sklepu internetowego. W tym przykładzie zostanie załadowany jeden link do kategorii produktów z listą produktów, z którego zostaną uzyskane trzy linki do produktów

Jak uzyskać opcje produktu
W programie E-Trade Jumper produkty opcjonalne to produkty wirtualne, które są powiązane z jednym głównym produktem, podczas gdy na stronie źródłowej jest to jedna karta produktu z zestawem opcji. Aby uzyskać opcje, musisz zarejestrować selektor, aby uzyskać nazwy opcji, określić separator przecinków i ustawić flagę "Opcja produktu"
.png)
Podczas testowania wartości będą wyświetlane oddzielone przecinkami
.png)
Po załadowaniu produktów ze strony, dla każdej wartości określonej na stronie zostanie utworzony 1 produkt główny i kilka produktów opcjonalnych.
.png)