Analisi di un sito per riempire il tuo negozio online, aggiungendo descrizioni, attributi, foto e video recensioni di prodotti ai tuoi prodotti
Come funziona il parser di dati Elbuz
Tutti i siti utilizzano il linguaggio di markup dell'ipertesto HTML, quindi tutti i siti utilizzano gli stessi tag per blocchi diversi, ad esempio il tag "a" viene utilizzato per i collegamenti. Per creare un blocco di informazioni, è previsto il tag div, che consente di selezionare una sezione con contenuto visivo del sito.
I tag HTML possono utilizzare i nomi di stile per visualizzare visivamente le informazioni sul sito, ad esempio, un determinato stile di blocco consente di visualizzare testo in grassetto o colore verde per alcuni elementi. Sulla base di questi dati nel sistema Elbuz, puoi configurare il parser per qualsiasi sito per ottenere le informazioni di cui hai bisogno, il parser Elbuz utilizza selettori CSS (stili di progettazione del sito) o XPath (linguaggio di query per gli elementi del sito) per ricevere dati.
Attenzione! Per iniziare, devi installare l'estensione per il browser Google Chrome, per farlo segui questo link. La ricerca delle schede prodotto è possibile solo nel browser Google Chrome. Se il collegamento al Chrome Store non funziona, installa l'estensione manualmente.
Creazione di un nuovo parser
Per aggiungere un nuovo parser del sito, aprire la finestra "Prodotti del catalogo di base", fare clic sul pulsante "Cerca prodotti" (1), nella finestra che si apre, fare clic sul pulsante "Aggiungi sito" (2).
Specificare l'indirizzo del sito per l'analisi e la stringa di ricerca
Qual è lo scopo del link di ricerca?
Per eseguire una ricerca automatica dei tuoi prodotti sul sito della fonte di analisi. Il programma deve sapere a quale indirizzo il sito cerca le merci, il nome del tuo prodotto verrà aggiunto a questo indirizzo, quindi il sito visualizzerà i risultati della ricerca, dovrai solo selezionare il prodotto desiderato dall'elenco per salvare la descrizione attributi, foto e altre informazioni.
Come scoprire l'indirizzo del link per cercare i tuoi prodotti?
Considera un esempio, in questo esempio il link alla ricerca: https://www.ozon.ru/search/?text
- Specifica il testo del sito nella barra di ricerca
- Fare clic sul pulsante "Cerca".
- Il sito si aprirà una pagina con i risultati della ricerca, mentre nella barra degli indirizzi del browser sarà presente un link che conterrà il testo che è stato inserito per la ricerca. Questo è il collegamento alla pagina di ricerca che stiamo cercando, è questo collegamento che deve essere copiato nella finestra per aggiungere un nuovo parser del sito, ma senza il tuo testo.
Quando si crea un nuovo parser del sito, i dati devono essere inseriti in questo modulo
Impostazioni del parser per la ricezione dei dati dal sito
Dopo aver aggiunto il parser del sito, si aprirà la finestra delle impostazioni
La tabella di configurazione contiene i tipi di operazioni e l'elenco dei campi in cui archiviare i dati. I tipi di operazione sono le fasi del parser per ottenere i dati dal sito.
Ad esempio, per ottenere gli attributi di un prodotto dal sito, è necessario ottenere un collegamento al prodotto in modo che il parser possa aprire la pagina per ottenere gli attributi, quindi la prima operazione che utilizzerà il parser sarà "Elenco prodotti links", è in questa operazione che verrà utilizzato il collegamento alla ricerca, che hai specificato durante la creazione del parser.
Tipi di operazione:
- Elenco dei link ai prodotti. Utilizzato per ottenere link ai prodotti dai risultati di ricerca.
- Prodotto di carta. Utilizzato per ottenere informazioni sul prodotto. Quando si esegue questa operazione, è possibile ottenere dal sito il nome del prodotto, l'articolo del produttore, il modello, la garanzia, il nome del produttore, le foto, le recensioni video e altre informazioni.
- Caratteristiche del prodotto. Utilizzato per ottenere gli attributi del prodotto.
Descrizione delle colonne della griglia per la configurazione del parser
- Selettore di funzionamento. Segno del selettore principale per la ricezione dei dati dal sito per eseguire l'operazione.
- Nome campo. Il nome dell'operazione o del campo in cui archiviare i dati.
- Selettore #1-4. Il parser Elbuz utilizza i selettori CSS (stili del sito) o XPath (linguaggio di query per gli elementi del sito) per ricevere i dati dalle pagine del sito. I campi del selettore specificano le condizioni per trovare i blocchi necessari sul sito e ottenere informazioni da essi.
- Link per il test. Link alla pagina del sito per il test di acquisizione dati. Per ogni operazione è indicato un link ad una sezione separata del sito, ad esempio, per l'operazione "Elenco link a merci", un link all'elenco di merci che il sito ha emesso durante la ricerca del testo da te specificato (prodotto nome) è indicato. Per verificare la ricezione degli attributi delle merci per l'operazione "Scheda articolo", viene specificato un collegamento alla merce.
- Testo da ripulire. Parole chiave da ripulire quando si ottengono i dati. Ad esempio, nel nome del prodotto sul sito c'è del testo in più che non vuoi ricevere dal sito, puoi impostare questo testo nel campo "Testo da pulire" per rimuoverlo.
- Il testo sulla pagina per passare all'operazione successiva. Quando viene avviata una ricerca di prodotti, il tipo di operazione "Elenco di collegamenti a prodotti" inizia a funzionare per ottenere collegamenti a prodotti dal risultato della ricerca, ma alcuni siti, durante la ricerca di un prodotto, aprono immediatamente una scheda prodotto, anziché un elenco di prodotti trovati, ma il programma attende un elenco di collegamenti se non lo trova, quindi non c'è una descrizione per il prodotto. Per risolvere questo problema, viene utilizzata questa colonna, in cui per il cap. selettore, il testo di ricerca è impostato in modo da poter determinare dove siamo, viene indicato il testo che è solo nella scheda prodotto, se il programma lo trova, andrà all'operazione successiva "Scheda prodotto" e scaricherà la foto attributi, descrizione.
- Nota. Una nota per una stringa di impostazione, ad esempio, è possibile salvare un promemoria del significato di questa impostazione.
Fase numero 1. Ottenere un elenco di link di prodotti dai risultati di ricerca
Per ottenere un elenco di collegamenti ai prodotti, è necessario scoprire il suo selettore dalla pagina dei risultati di ricerca, per questo, copiare il collegamento con i risultati della ricerca nel campo "Link per il test" e fare clic sul pulsante "T"
Si aprirà la scheda Download Testing, che mostra la pagina al link specificato, dovrebbe mostrare i risultati della ricerca con un elenco di prodotti. I risultati del lavoro del parser vengono visualizzati sulla sinistra Il tuo compito è quello di ottenere un elenco di collegamenti ai prodotti dal sito, se il parser è configurato correttamente, vedrai un elenco di collegamenti sul lato sinistro dello schermo.
Devi trovare un selettore di link di prodotto. Per fare ciò, fai clic con il tasto destro del mouse sul nome di qualsiasi prodotto dal risultato della ricerca e seleziona "Visualizza codice", dopodiché si aprirà una finestra del browser con il codice sorgente del sito. Puoi posizionarlo a tuo piacimento, ad esempio, a sinistra o in fondo allo schermo
Puoi anche aprire il link in una scheda separata del browser se hai bisogno di più spazio sullo schermo per cercare il selettore del link del prodotto e fare lo stesso lì.
Stiamo cercando blocchi di merci e un collegamento in essi
Il tuo compito è trovare blocchi di prodotti e collegamenti a prodotti nei risultati di ricerca. Dopo aver selezionato la voce "Visualizza codice", il browser aprirà il codice sorgente del sito nel punto in cui è stato premuto il tasto destro del mouse, in questo esempio abbiamo cliccato sul nome del prodotto e vediamo che si trovano i link del prodotto nei tag "div" e "a".
Cioè, ogni prodotto nei risultati della ricerca ha un blocco "div" e contiene un collegamento "a", mentre il blocco "div" ha il nome dello stile tile (class="tile").
Cioè, ogni prodotto nell'elenco è contraddistinto dallo stesso stile chiamato tile, che è quello che useremo per ottenere i collegamenti a ciascun prodotto dai risultati di ricerca.
Scriviamo i selettori nelle impostazioni del parser in questo modulo (specificiamo il nome dello stile tramite un punto e il tag "a" separato da uno spazio)
Controlliamo il risultato, per questo premiamo il pulsante "T". Come puoi vedere nell'esempio, abbiamo ricevuto 28 link a prodotti, ovvero il nostro parser sa già come cercare i tuoi prodotti su un sito di terze parti
Fase numero 2. Ottenere i dati dalla scheda prodotto.
Per analogia con la ricerca di un selettore di link ai prodotti dai risultati della ricerca, è necessario trovare i selettori per i campi necessari nella scheda prodotto, per questo scriviamo un link al prodotto di prova nel campo "Link per il test" e aprilo
È necessario fare clic con il tasto destro del mouse sul nome del prodotto e selezionare la voce "Visualizza codice", dopodiché si aprirà una finestra del browser con il codice sorgente del sito.
Ad esempio, il nome del prodotto è nel tag h1
Scriviamo il selettore h1 nella tabella delle impostazioni
Successivamente, stiamo cercando un selettore per la descrizione del prodotto
Scrivi il selettore in questo modo
div[itemprop="descrizione"]
Per i collegamenti alle foto, prescriviamo un tale selettore
div. image img::attr(src)
Controllo del risultato
Fase numero 3. Ottenere gli attributi del prodotto.
Per ottenere gli attributi del prodotto, è necessario specificare un selettore per l'intero blocco di attributi (tabella) e un selettore di riga che contenga il nome e il valore dell'attributo.
Procedura:
- Nel campo "Selettore n. 1", specificare il selettore per il blocco attributi
- Nel campo "Selettore n. 2", specificare il selettore per il blocco che contiene il nome e il valore dell'attributo (ovvero per la riga della tabella degli attributi)
- Nel campo "Nome attributo", specifica il selettore in cui si trova il nome dell'attributo
- Nel campo "Valore attributi", specifica il selettore in cui si trova il valore dell'attributo
Esempio di impostazione
Un esempio di personalizzazione in base al codice sorgente del sito
Il risultato della verifica della ricezione degli attributi del prodotto (caratteristiche, proprietà)
Descrizione generale dell'analisi del sito .
Analisi dei prezzi della concorrenza