Come impostare un parser per qualsiasi sito di negozio online: ottenere un catalogo di prodotti con prezzi, descrizioni e foto
Come funziona il parser di e-commerce Elbuz
Tutti i negozi online sono creati utilizzando il linguaggio HTML, questo è un linguaggio di markup di pagina standardizzato sul World Wide Web, quindi tutti i siti utilizzano gli stessi elementi per blocchi diversi, il parser Elbuz utilizza questo standard per ricevere dati dal negozio online luogo.
Elenco dei tag HTML più comunemente utilizzati che si trovano sulle pagine dei negozi online:
- tag div. Un elemento di blocco universale che consente di selezionare una sezione con contenuto visivo del sito. Potrebbe essere un elenco di prodotti.
- Etichetta a. Visualizza un collegamento a una pagina. Questi possono essere collegamenti a prodotti in una categoria specifica.
- etichetta h1. Visualizza l'intestazione del primo livello (ci sono anche h2, h3, h4, h5, h6). Potrebbe essere il nome del prodotto.
- tag p. Visualizza un paragrafo di testo. Potrebbe essere una descrizione del prodotto.
- etichetta da tavolo. Visualizza una tabella. Può essere una tabella degli attributi del prodotto.
- il tag. Visualizza un elenco puntato. Può essere una breve descrizione dell'oggetto.
- tag img. Progettato per essere visualizzato nella pagina dell'immagine. Queste potrebbero essere foto del prodotto.
I tag possono contenere il nome dello stile per la visualizzazione visiva delle informazioni sul sito, ad esempio lo stile del blocco specificato consente di visualizzare testo in grassetto o colore verde per qualsiasi elemento. Sulla base di questi dati standardizzati nel sistema Elbuz, puoi configurare il parser per qualsiasi negozio online per ottenere le informazioni di cui hai bisogno, il parser Elbuz utilizza selettori CSS (stili di progettazione del sito) o XPath (linguaggio di query per il sito elementi) per ricevere i dati.
Per iniziare, devi installare l'estensione per il browser Google Chrome, per farlo segui questo link. L'analisi è possibile solo nel browser Google Chrome. Se il collegamento al Chrome Store non funziona, installa l'estensione manualmente. Inoltre, non è possibile utilizzare l'estensione del browser, per questo è necessario attivare la funzione di analisi del server.
Creazione di un nuovo parser
Per configurare il parser, segui questo ordine di operazioni:
- Apri i listini prezzi.
- Fare clic sul pulsante Aggiungi controparte.
- Specificare il nome del sito.
- Seleziona la scheda Analizzatore.
- Fare clic sul pulsante Aggiungi sito.
- Fornire un collegamento alla pagina principale del sito.
- Specifica i selettori di tag.
Per aggiungere un nuovo parser del sito, aprire la finestra "Listini prezzi", fare clic sul pulsante "+" e selezionare "Aggiungi controparte"
Specificare il nome della controparte (negozio online) e selezionare un gruppo, di default sono disponibili i seguenti gruppi: Fornitore, Concorrente, Cliente.
Dopo aver aggiunto la controparte, ti verrà chiesto di scegliere da dove vuoi scaricare i dati, in questo elenco, seleziona la voce "Paser sito web" e fai clic sul pulsante "Aggiungi sito"
Specificare l'indirizzo del negozio online per l'analisi dei dati
Configurazione di un parser per ricevere dati da un negozio online
L'ordine del parser per il download di merci dal negozio online:
- Ottieni collegamenti a categorie di prodotti
- Ottieni link ai prodotti
- Ottieni schede prodotto e salva le informazioni necessarie
Dopo aver aggiunto il parser del negozio online, si aprirà la finestra delle impostazioni
La tabella di configurazione contiene i tipi di operazioni e l'elenco dei campi in cui archiviare i dati. I tipi di operazione sono le fasi del parser per ottenere i dati dal sito.
Ad esempio, per ottenere un elenco di prodotti dal sito, è necessario ottenere collegamenti alle categorie di prodotti in modo che il parser possa aprire una pagina per ottenere informazioni su ciascun prodotto, quindi la prima operazione che utilizzerà il parser è "Elenco collegamenti alle categorie di prodotti".
Tipi di operazione:
- Elenco dei link alle categorie di prodotti. Utilizzato per ottenere collegamenti a categorie di prodotti.
- Elenco dei link ai prodotti. Utilizzato per ottenere collegamenti a prodotti.
- Prodotto di carta. Utilizzato per ottenere informazioni sul prodotto. Quando si esegue questa operazione, è possibile ottenere dal sito il nome del prodotto, l'articolo del produttore, il modello, la garanzia, il nome del produttore, le foto, le recensioni video e altre informazioni.
- Caratteristiche del prodotto. Utilizzato per ottenere gli attributi del prodotto.
Descrizione delle colonne della griglia per la configurazione del parser
- Selettore di funzionamento. Segno del selettore principale per la ricezione dei dati dal sito per eseguire questa operazione.
- Nome campo. Il nome dell'operazione o del campo in cui archiviare i dati.
- Selettore #1-4. Il parser Elbuz utilizza i selettori CSS (stili del sito) o XPath (linguaggio di query per gli elementi del sito) per ricevere i dati dalle pagine del sito. I campi del selettore specificano le condizioni per trovare i blocchi necessari sul sito e ottenere informazioni da essi.
- Link per il test. Link alla pagina del sito per il test di acquisizione dati. Per ogni operazione è indicato un link ad una sezione separata del sito, ad esempio per l'operazione “Elenco link a categorie di prodotti” è indicato un link alla pagina principale del sito, dove è presente l'elenco di tutti Categorie di Prodotto. Per verificare la ricezione degli attributi delle merci per l'operazione "Scheda articolo", viene specificato un collegamento alla merce.
- Testo da ripulire. Parole chiave da ripulire quando si ottengono i dati. Ad esempio, nel nome del prodotto sul sito c'è del testo in più che non vuoi ricevere dal sito, puoi impostare questo testo nel campo "Testo da pulire" per rimuoverlo.
- Trovare. Cerca testo.
- Sostituire. Testo da sostituire (basato sul testo trovato).
- Ricevi HTML. Se è necessario preservare la formattazione del testo ricevuto dalla pagina del sito utilizzando i tag html, allora impostare questo flag.
- Espressione regolare. Puoi utilizzare un'espressione regolare per ottenere il valore desiderato in base al testo ricevuto tramite il selettore, ovvero analizzare la stringa in componenti in modo più dettagliato e ottenere ciò di cui hai bisogno alla fine.
- XPath. Attivazione del selettore della modalità del linguaggio di interrogazione XPath.
- Il numero massimo di risultati. Consente di limitare il download dei dati per il test di download, in modo da non attendere il download dell'intero sito, è possibile impostare di ricevere solo 1 collegamento a una categoria e ricevere, ad esempio, 2 collegamenti a prodotti, per questo è possibile impostare il numero di risultati per ciascuna operazione.
- Merci in questa operazione. Puoi ricevere la merce senza aprire le schede prodotto sul sito. Questa modalità sarà utile se desideri ottenere solo i prezzi per le merci e altri valori disponibili quando si elencano le merci in una categoria.
- Nota. Una nota per una stringa di impostazione, ad esempio, è possibile salvare un promemoria del significato di questa impostazione.
Fase numero 1. Ottenere un elenco di collegamenti a categorie di prodotti
Per ottenere un elenco di collegamenti alle categorie di prodotti, è necessario trovare il selettore di collegamento che porta alla categoria, per questo copiare il collegamento dal sito (di solito questa è la pagina principale del sito) nella sezione "Link per il test" campo e fare clic sul pulsante "T".
Si aprirà la scheda "Download test", in cui verrà visualizzata la pagina al collegamento specificato, su di essa dovrebbero essere visibili le categorie di prodotti. I risultati del lavoro del parser sono visualizzati sulla sinistra. Il tuo compito è quello di ottenere un elenco di collegamenti alle categorie di prodotti dal sito; se il parser è stato configurato correttamente, vedrai un elenco di collegamenti alle categorie sul lato sinistro del schermo.
Attenzione! Il test di download è possibile solo per i siti che utilizzano il protocollo https sicuro, solo per tali siti puoi verificare visivamente la ricezione dei dati nella scheda "Test di download", mentre puoi comunque configurare l'analisi di tali siti (usando il http), ma verifica visivamente che l'acquisizione dei dati non funzioni, ovvero tutti i tag e i selettori devono essere inseriti "alla cieca" (a caso).
Per cercare un selettore di link per categorie di prodotti, fai clic con il tasto destro del mouse sul nome di una qualsiasi categoria e seleziona "Visualizza codice", dopodiché si aprirà una finestra del browser con il codice sorgente del sito. Puoi posizionarlo a tuo piacimento, ad esempio, a sinistra o in fondo allo schermo
Puoi anche aprire il link in una scheda separata del browser se hai bisogno di più spazio sullo schermo per cercare il selettore del link del prodotto e fare lo stesso lì.
Stiamo cercando blocchi di categorie di prodotti e un collegamento in essi
Il tuo compito è trovare blocchi di collegamenti a categorie di prodotti. Dopo aver selezionato la voce "Visualizza codice" il browser aprirà il codice sorgente del sito nel punto in cui è stato premuto il tasto destro del mouse, in questo esempio abbiamo cliccato sul nome della categoria e vediamo che i link alle categorie si trovano nei tag "div" e "a" (l'immagine sotto è cliccabile per ingrandire).
Come puoi vedere, ogni categoria di prodotto ha un blocco "div" e contiene i link "a", mentre il blocco "div" ha il nome dello stile links-list (class="links-list") e il link "a" ha il nome di stile link ( class="link") .
Scriviamo i selettori nelle impostazioni del parser in questo modulo: specifica i nomi dei tag separati da uno spazio e specifica i nomi degli stili separati da un punto. Puoi semplicemente specificare il tag "a" e il suo stile, se è univoco all'interno della pagina per un collegamento che porta a una categoria di prodotto (quindi il 1° paragrafo non è obbligatorio).
Controlliamo il risultato, per questo premiamo il pulsante "T". Come puoi vedere nell'esempio, abbiamo 74 collegamenti a categorie di prodotti, ovvero il nostro parser sa già come cercare categorie su un sito di terze parti
Fase numero 2. Ottenere un elenco di collegamenti ai prodotti
Per ottenere un elenco di link di prodotti, è necessario trovare il selettore di link di prodotto nella pagina di elenco dei prodotti nella categoria, per aprire qualsiasi categoria di prodotti sul sito e copiare il link nel campo "Link per il test", quindi fare clic su Pulsante "T".
Si aprirà la scheda "Download test", in cui verrà visualizzata la pagina al collegamento specificato, su di essa dovrebbe essere visibile un elenco di prodotti. I risultati del lavoro del parser vengono visualizzati sulla sinistra Il tuo compito è ottenere un elenco di collegamenti ai prodotti dal sito, se il parser è configurato correttamente, vedrai un elenco di collegamenti sul lato sinistro dello schermo.
Per cercare un selettore di link di prodotto, fai clic con il tasto destro del mouse sul nome di un qualsiasi prodotto e seleziona "Visualizza codice", dopodiché si aprirà una finestra del browser con il codice sorgente del sito.
Stiamo cercando blocchi di merci e un collegamento in essi
Il tuo compito è trovare blocchi di prodotti con collegamenti alla scheda prodotto. Dopo aver selezionato la voce "Visualizza codice", il browser aprirà il codice sorgente del sito nel punto in cui è stato premuto il tasto destro del mouse, in questo esempio abbiamo cliccato sul nome del prodotto e vediamo che si trovano i link del prodotto nei tag "div" e "a".
Cioè, ogni prodotto nei risultati della ricerca ha un blocco "div" e contiene un collegamento "a", mentre il blocco "div" ha il nome dello stile tile (class="tile").
Cioè, ogni prodotto nell'elenco ha lo stesso stile chiamato tile e utilizzeremo queste informazioni per ottenere collegamenti a ciascun prodotto.
Scriviamo i selettori nelle impostazioni del parser in questa maschera: specifica il nome dello stile tramite un punto e il tag "a" separato da uno spazio
Controlliamo il risultato, per questo premiamo il pulsante "T". Come puoi vedere nell'esempio, abbiamo 28 collegamenti a prodotti, ovvero il nostro parser sa già come trovare prodotti su un sito di terze parti
Impostazione navigazione pagina (impaginazione)
Quando si apre una categoria di prodotti, di solito non vengono visualizzati tutti i prodotti, ad esempio possono essere visualizzati solo 28 prodotti, i seguenti prodotti sono nella pagina n. 2, questa modalità è chiamata impaginazione (impaginazione). Per ottenere i link ai prodotti su altre pagine, devi trovare un selettore di link che porti alla pagina successiva, devi trovare un blocco di navigazione nella pagina per andare ad altre pagine (paginatore), nell'esempio qui sotto, questo blocco ha l'aspetto questo e ha un tale selettore
ul[name="paginatore"] li a
Il selettore trovato per l'impaginazione della merce è indicato nel campo "Selettore n. 2"
Ci sono siti in cui i link di impaginazione non contengono il link corrente alla pagina (link alla categoria prodotto), quindi l'impaginazione potrebbe non essere determinata correttamente, esempio di definizione errata, quando il link contiene solo il numero di pagina, di conseguenza, il collegamento porterà alla pagina principale del sito
Per risolvere questo problema, è necessario conoscere l'indirizzo della pagina corrente. È necessario aprire il codice sorgente del sito e provare a trovare l'indirizzo alla pagina corrente, se ne viene trovata una, quindi è necessario specificare nel campo Selettore n. 3 i tag come ottenerlo, ad esempio, dal Blocco "Breadcrumbs" (breadcrumbs): div. breadcrumbs a. active
La fase 2 può essere utilizzata per ottenere solo un elenco di merci, questa modalità sarà utile quando è necessario ottenere solo i prezzi delle merci, senza descrizioni, specifiche tecniche. caratteristiche e foto, mentre la velocità di ottenimento dei dati dal sito sarà molte volte superiore (non è necessario accedere alle schede prodotto presenti nel sito). Per attivare questa modalità, impostare il flag "Prodotti in questa operazione" per il tipo di operazione "Elenco link ai prodotti", quindi specificare i selettori per i campi da compilare dal sito. Di conseguenza, non è necessario compilare il docente per ottenere collegamenti ai prodotti, ottenendo solo "impaginazione".
Fase numero 3. Ottenere i dati dalla scheda prodotto.
Per analogia con la ricerca di un selettore di link prodotto, è necessario trovare i selettori per i campi necessari nella scheda prodotto, per questo scriviamo un link al prodotto di prova nel campo "Link per il test" e lo apriamo
È necessario fare clic con il tasto destro del mouse sul nome del prodotto e selezionare la voce "Visualizza codice", dopodiché si aprirà una finestra del browser con il codice sorgente del sito.
Ad esempio, il nome del prodotto è nel tag h1
Scriviamo il selettore h1 nella tabella delle impostazioni
Successivamente, stiamo cercando un selettore per il prezzo del prodotto
Scrivi il selettore in questo modo
div. main-price span. price-number span
Successivamente, stiamo cercando un selettore per la descrizione del prodotto
Scrivi il selettore in questo modo
div[itemprop="descrizione"]
Per i collegamenti alle foto, prescriviamo un tale selettore
div. image img::attr(src)
Controllo del risultato
Fase numero 4. Ottenere gli attributi del prodotto.
Per ottenere gli attributi del prodotto, è necessario specificare un selettore per un blocco di attributi (tabella) e un selettore di stringhe che contenga il nome e il valore dell'attributo.
Procedura:
- Nel campo "Selettore n. 1", specificare il selettore per il blocco attributi
- Nel campo "Selettore n. 2", specificare il selettore per il blocco che contiene il nome e il valore dell'attributo (ovvero per la riga della tabella degli attributi)
- Nel campo "Nome attributo", specifica il selettore in cui si trova il nome dell'attributo
- Nel campo "Valore attributi", specifica il selettore in cui si trova il valore dell'attributo
Esempio di impostazione
Un esempio di personalizzazione in base al codice sorgente del sito
Il risultato della verifica della ricezione degli attributi del prodotto (caratteristiche, proprietà)
Se gli attributi si trovano su una pagina separata
Se gli attributi si trovano su una pagina separata, ad esempio, facendo clic sulla scheda "Caratteristiche" si apre una nuova pagina, quindi ci sono due soluzioni, tutte si riducono a ottenere un collegamento alla pagina in cui si trovano gli attributi del prodotto, in modo che il il programma può attraversarlo e ottenere dati.
Opzione numero 1. Il collegamento è nel codice sorgente html.
Il selettore n. 3 deve essere configurato per il tipo di operazione "Attributi del prodotto" per ottenere un collegamento (o parte di un collegamento a una pagina di attributi).
Ad esempio, quando si fa clic su una scheda del sito, è presente un tale codice html, quindi il selettore per ottenere il collegamento sarà: a. nav-tabs-link
Opzione numero 2. Al collegamento al prodotto viene aggiunto un prefisso, che non è esplicitamente nel codice sorgente html.
È necessario che il tipo di operazione "Attributi del prodotto" registri il prefisso del collegamento nel selettore n. 4 per aggiungerlo al collegamento del prodotto.
Ad esempio, puoi scrivere: tab=caratteristiche, quindi il programma aprirà un collegamento al prodotto + prefisso, quindi il parser andrà alla pagina degli attributi del prodotto. Cosa prescrivere esattamente nel prefisso è determinato empiricamente dopo un'analisi approfondita del sito.
Avvio dell'analisi con il caricamento di un catalogo prodotti da un sito di terze parti.
Il download della merce dal sito web del negozio online avverrà nel seguente ordine:
- Ottenere collegamenti a categorie di prodotti
- Ottenere collegamenti ai prodotti
- Riceviamo schede prodotto e salviamo le informazioni necessarie
Per il test di download, imposta il numero massimo di risultati per le fasi per controllare rapidamente l'analisi dei dati dal sito del negozio online. In questo esempio, verrà caricato un collegamento a una categoria di prodotti con un elenco di prodotti da cui verranno ottenuti tre collegamenti a prodotti
Come ottenere le opzioni del prodotto
Nel programma Elbuz, i prodotti opzionali sono prodotti virtuali collegati a un prodotto principale, mentre sul sito di origine questa è una scheda prodotto con una serie di opzioni. Per ottenere le opzioni, è necessario registrare un selettore per ottenere i nomi delle opzioni, specificare un separatore di virgole e impostare il flag "Opzione prodotto"
Durante il test, i valori verranno visualizzati separati da virgole
Dopo aver caricato i prodotti dal sito, verranno creati 1 prodotto principale e diversi prodotti opzionali per ogni valore specificato sul sito.
Come raschiare un sito
Esistono diverse modalità di analisi:
- Specifica manualmente i collegamenti alle categorie o ai prodotti di cui hai bisogno.
Se hai bisogno di ricevere prodotti solo da determinate categorie, devi aggiungere collegamenti alle categorie necessarie nella scheda "Elenco collegamenti". È inoltre possibile ricevere informazioni solo sui prodotti di cui hai bisogno, per questo specifica un link al prodotto e spunta il flag "Link al prodotto". - Carica un elenco di collegamenti da un file che richiedono informazioni dal sito. Il file deve essere in formato CSV (file di testo).
- Carica i tuoi prodotti nel catalogo di base e inizia a cercare i prodotti sul sito in base ai tuoi prodotti, il programma inserirà il nome del tuo prodotto nella barra di ricerca del sito e salverà il prodotto ricevuto nel database del programma. In questa modalità è importante che i nomi dei tuoi prodotti siano identici ai nomi presenti sul sito o molto vicini ad essi, perché l'accuratezza della ricerca dipende dall'algoritmo del sito stesso, indipendentemente dal fatto che riesca a trovare il prodotto di cui hai bisogno o meno .
Per caricare un elenco di collegamenti da un file, attenersi alla seguente procedura
Ricerca automatizzata dei tuoi prodotti sui siti web
- È necessario specificare un collegamento alla ricerca nelle impostazioni. Il collegamento è individuale per ogni sito. Per ottenere un collegamento, inserisci un testo qualsiasi nella barra di ricerca del sito, copia il collegamento senza testo dal browser, un esempio di collegamento:
https://site.com/?search_text={NOME}
Invece di {NAME}, il programma sostituirà la tua parola chiave e genererà link per cercare il tuo prodotto sul sito di origine. È inoltre possibile specificare la sostituzione della macro {SKU} in modo che la ricerca avvenga in base al valore del campo "Articolo del produttore", al posto del nome. - Attiva l'opzione "Cerca i tuoi prodotti"
Questa è solo una breve presentazione delle capacità del programma E-Trae Jumper, che automatizza i processi di un moderno negozio online.
Contattaci per una consulenza dettagliata sulla risoluzione dei tuoi problemi individuali. I dettagli di contatto sono su questo sito.
Programma per negozio online