Parsowanie witryny w celu wypełnienia Twojego sklepu internetowego, dodawanie opisów, atrybutów, zdjęć i recenzji produktów wideo do Twoich produktów
Jak działa parser danych zworki w handlu elektronicznym
Wszystkie witryny używają języka znaczników hipertekstowych HTML, więc wszystkie witryny używają tych samych tagów dla różnych bloków, na przykład tag „a” jest używany do linków. Do tworzenia bloku informacji przeznaczony jest znacznik div, który pozwala wybrać sekcję z treścią wizualną na stronie.
Tagi HTML mogą używać nazw stylów do wizualnego wyświetlania informacji w witrynie, na przykład dany styl blokowy umożliwia wyświetlanie pogrubionego tekstu lub zielonego koloru dla jakiegoś elementu. Na podstawie tych danych w systemie Elbuz możesz skonfigurować parser dla dowolnej witryny, aby uzyskać potrzebne informacje, parser Elbuz korzysta z selektorów CSS (style projektowania witryny) lub XPath (język zapytań dla elementów witryny) do odbierania danych.
Uwaga! Aby rozpocząć, musisz zainstalować rozszerzenie dla przeglądarki Google Chrome, w tym celu kliknij ten link. Wyszukiwanie kart produktów jest możliwe tylko w przeglądarce Google Chrome. Jeśli link do Chrome Store nie działa, zainstaluj rozszerzenie ręcznie .
Tworzenie nowego parsera
Aby dodać nowy parser witryny należy otworzyć okno „Produkty z katalogu bazowego”, kliknąć przycisk „Wyszukaj zawartość produktów” (1), w oknie, które się otworzy, kliknąć przycisk „Dodaj witrynę” (2).
Określ adres witryny do analizy i ciąg wyszukiwania
Jaki jest cel linku wyszukiwania?
Aby przeprowadzić automatyczne wyszukiwanie Twoich produktów na stronie źródła parsowania. Program musi wiedzieć pod jakim adresem strona wyszukuje towary, do tego adresu zostanie dodana nazwa Twojego produktu, następnie strona wyświetli wyniki wyszukiwania, wystarczy wybrać żądany produkt z listy, aby zapisać opis atrybuty, zdjęcie i inne informacje.
Jak znaleźć adres linku do wyszukiwania swoich produktów?
Rozważ przykład, w tym przykładzie link do wyszukiwania: https://www.ozon.ru/search/?text
- Określ tekst na stronie w pasku wyszukiwania
- Kliknij przycisk „Szukaj”
- Witryna otworzy stronę z wynikami wyszukiwania, natomiast w pasku adresu przeglądarki pojawi się link, który będzie zawierał tekst wprowadzony do wyszukiwania. To jest link do strony wyszukiwania, której szukamy, to ten link należy skopiować do okna w celu dodania nowego parsera witryny, ale bez twojego tekstu.
Przy tworzeniu nowego parsera strony dane należy wprowadzić w tym formularzu
Ustawienia parsera do odbierania danych z serwisu
Po dodaniu parsera strony otworzy się okno ustawień
Tabela konfiguracji zawiera typy operacji oraz listę pól do przechowywania w nich danych. Typy operacji to etapy parsera służące do pobierania danych z witryny.
Na przykład, aby pobrać atrybuty produktu ze strony, musisz uzyskać link do produktu, aby parser mógł otworzyć stronę i pobrać atrybuty, więc pierwszą operacją, której użyje parser jest "Lista produktów linki”, to właśnie w tej operacji zostanie użyty link do wyszukiwania, który określiłeś podczas tworzenia parsera.
Rodzaje operacji:
- Lista linków do produktów. Służy do uzyskiwania linków do produktów z wyników wyszukiwania.
- Karta Produktu. Służy do uzyskiwania informacji o produkcie. Podczas wykonywania tej operacji możesz uzyskać nazwę produktu, artykuł producenta, model, gwarancję, nazwę producenta, zdjęcia, recenzje wideo i inne informacje ze strony.
- Cechy produktu. Służy do uzyskiwania atrybutów produktu.
Opis kolumn siatki do konfiguracji parsera
- Selektor operacji. Znak głównego selektora do odbioru danych z serwisu w celu wykonania operacji.
- Nazwa pola. Nazwa operacji lub pola do przechowywania danych.
- Selektor #1-4. Parser Elbuz wykorzystuje selektory CSS (style witryn) lub XPath (język zapytań dla elementów witryny) do odbierania danych ze stron witryny. Pola selektora określają warunki wyszukiwania potrzebnych bloków na witrynie i uzyskiwania z nich informacji.
- Link do testów. Link do strony witryny do testowania akwizycji danych. Dla każdej operacji wskazany jest link do oddzielnej sekcji witryny, na przykład dla operacji „Lista linków do towarów”, link do listy towarów, które witryna wydała podczas wyszukiwania określonego tekstu (produkt nazwa) jest wskazana. Aby przetestować odbiór atrybutów towarów dla operacji „Karta towaru”, podawany jest link do towaru.
- Tekst do oczyszczenia. Słowa kluczowe do oczyszczenia podczas pobierania danych. Na przykład w nazwie produktu w witrynie znajduje się dodatkowy tekst, którego nie chcesz otrzymywać z witryny, możesz ustawić ten tekst w polu „Tekst do oczyszczenia”, aby go usunąć.
- Tekst na stronie, aby przejść do następnej operacji. Po uruchomieniu wyszukiwania produktów typ operacji „Lista linków do produktów” zaczyna działać, aby uzyskać linki do produktów z wyników wyszukiwania, ale niektóre witryny podczas wyszukiwania produktu od razu otwierają kartę produktu zamiast listy znalezione produkty, ale program czeka na listę linków, jeśli jej nie znajdzie, to nie ma opisu produktu. Aby rozwiązać ten problem, stosuje się tę kolumnę, w której dla Ch. selektor, wyszukiwany tekst jest ustawiony tak, że możemy określić gdzie jesteśmy, wskazany jest tekst który jest tylko na karcie produktu, jeśli program go znajdzie to przejdzie do kolejnej operacji "Karta produktu" i pobierze zdjęcie atrybuty, opis.
- Notatka. Notatka dotycząca ciągu ustawień, na przykład, możesz zapisać sobie przypomnienie, co oznacza to ustawienie.
Etap nr 1. Pobieranie listy linków do produktów z wyników wyszukiwania
Aby uzyskać listę linków do produktów, musisz znaleźć jej selektor na stronie wyników wyszukiwania, w tym celu skopiuj link z wynikami wyszukiwania w polu „Link do testowania” i kliknij przycisk „T”
Otworzy się zakładka Testowanie pobierania, wyświetlając stronę pod wskazanym linkiem, powinna pokazywać wyniki wyszukiwania z listą produktów. Wyniki pracy parsera wyświetlają się po lewej stronie Twoim zadaniem jest pobranie listy linków do produktów z serwisu, jeśli parser zostanie poprawnie skonfigurowany, po lewej stronie ekranu zobaczysz listę linków.
Musisz znaleźć selektor linku do produktu. Aby to zrobić, kliknij prawym przyciskiem myszy nazwę dowolnego produktu z wyników wyszukiwania i wybierz „Wyświetl kod”, po czym otworzy się okno przeglądarki z kodem źródłowym witryny. Możesz ustawić go tak, jak chcesz, na przykład po lewej lub u dołu ekranu
Możesz również otworzyć link w osobnej karcie przeglądarki, jeśli potrzebujesz więcej miejsca na ekranie, aby wyszukać selektor linków do produktu i zrobić to samo tam.
Szukamy bloków towaru i linku w nich
Twoim zadaniem jest znalezienie bloków produktów i linków do produktów w wynikach wyszukiwania. Po wybraniu pozycji „Wyświetl kod” przeglądarka otworzy kod źródłowy strony w miejscu, w którym został naciśnięty prawy przycisk myszy, w tym przykładzie kliknęliśmy w nazwę produktu i widzimy, że znajdują się linki do produktów w znacznikach „div” i „a” .
Oznacza to, że każdy produkt w wynikach wyszukiwania ma blok „div” i zawiera w nim łącze „a”, podczas gdy blok „div” ma nazwę stylu kafelka (class="tile").
Oznacza to, że każdy produkt na liście wyróżnia się tym samym stylem zwanym kafelkiem, którego użyjemy, aby uzyskać linki do każdego produktu z wyników wyszukiwania.
Zapiszmy selektory w ustawieniach parsera w tej formie (podajemy nazwę stylu za pomocą kropki i tagu "a" oddzielonego spacją)
Sprawdzamy wynik, w tym celu naciskamy przycisk „T”. Jak widać na przykładzie, otrzymaliśmy 28 linków do produktów, czyli nasz parser już wie, jak wyszukać Twoje produkty na stronie innej firmy
Etap nr 2. Pobieranie danych z karty produktu.
Analogicznie do wyszukiwania selektora linków do produktów z wyników wyszukiwania, musisz znaleźć selektory dla potrzebnych Ci pól w karcie produktu, w tym celu wpisujemy link do testowanego produktu w polu "Link do testowania" i otwórz to
Musisz kliknąć prawym przyciskiem myszy nazwę produktu i wybrać element „Wyświetl kod”, po czym otworzy się okno przeglądarki z kodem źródłowym witryny.
Na przykład nazwa produktu znajduje się w tagu h1
Zapiszmy selektor h1 w tabeli ustawień
Następnie szukamy selektora do opisu produktu
Napisz selektor w ten sposób
div[itemprop="opis"]
W przypadku linków do zdjęć przepisujemy taki selektor
div. image img::attr(src)
Sprawdzanie wyniku
Etap nr 3. Uzyskiwanie atrybutów produktu.
Aby uzyskać atrybuty produktu, należy określić selektor dla całego bloku atrybutów (tabeli) oraz selektor wiersza, który zawiera nazwę i wartość atrybutu.
Procedura:
- W polu „Selektor nr 1” określ selektor dla bloku atrybutów
- W polu „Selektor nr 2” określ selektor dla bloku zawierającego nazwę i wartość atrybutu (czyli dla wiersza tabeli atrybutów)
- W polu „Nazwa atrybutu” określ selektor, w którym znajduje się nazwa atrybutu
- W polu „Wartość atrybutów” określ selektor, w którym znajduje się wartość atrybutu
Przykład ustawienia
Przykład personalizacji na podstawie kodu źródłowego witryny
Wynik sprawdzenia odbioru atrybutów produktu (cechy, właściwości)
Ogólny opis analizy składni witryny .