Il crawler o software spider è il software utilizzato dai Motori di ricerca per scandagliare e scansionare e, quindi, rilevare le pagine dei siti web pubblici per poterle poi indicizzare e presentarle come risultati di ricerca in seguito, appunto, a una ricerca da parte degli utenti.

Menu di navigazione dell'articolo

La scansione segue i link che partono da una pagina e come essa è collegata alle altre pagine creando una rete e una serie di risorse che il motore di ricerca valuta meritevoli di entrare nell’indice delle pagine più rilevanti rispetto a una determinata parola chiave. Il crawler più “efficiente” al mondo è quello di Google e si chiama Googlebot. Andiamo dunque a esplorare come funziona il crawler di Google perché è fondamentale conoscerne le dinamiche per la realizzazione di siti web che possono essere indicizzati e ottimizzati ad hoc, senza dimenticare che le Parole chiave devono essere inserite in modo appropriato, ragionevole e spontaneo durante la creazione contenuti web.

Che cos’è Googlebot e come funziona il crawler

È importante per un sito conoscere come funziona il crawler di Google – il più importante motore di ricerca nel mondo – per poter realizzare siti performanti o per correggere, risolvere o migliorare le strategie SEO per garantire che le pagine di un sito siano accessibili ai crawler e indicizzabili.

Secondo la definizione di Martine Splitt, esperto SEO, Googlebot è un software che esegue 3 funzioni:

  1. Il crawling: analisi approfondita e radicale del web alla ricerca di contenuti e pagine;
  2. L’indicizzazione: trovate le risorse le “ordina e classifica” secondo determinati algoritmi;
  3. Il ranking: posiziona le risorse e i contenuti trovati nel web.

Quindi, Googlebot individua e raccoglie dei contenuti dal web, cerca di caprie e catalogare l’argomento dei contenuti e stabilisce quali contenuti sia il migliore quando un utente inserisce una specifica query in un determinato momento. Il crawler di Google funziona come un “topo di biblioteca” che cerca nuovi contenuti nel web e suggerisce quali aggiungere all’Indice nell’inventario della più grande biblioteca del mondo. Infatti Googlebot permette di compilare e raccogliere oltre 1 milione di GB di informazioni in frazioni di secondo, una potente ed efficiente macchina che scansiona il web e i contenuti in tutto il mondo, aggiungendo sempre pagine nuove e aggiornate al suo indice.

Googlebot, in realtà, è il nome generico che racchiude in sé due diversi tipi di software di crawling o spidering: c’è un crawler desktop che simula la ricerca di un utente tramite PC e un crawler mobile che simula la ricerca di un utente da dispositivo mobile. Tutti i siti pubblici e visibili in rete – anche in versione mobile - sono scansionati e “visitati” dal crawler di Google.

Quanti robot o bot utilizza Google per la scansione dei siti

Come funziona il crawler Google: scopriamo Googlebot!

Per capire bene come funziona il crawler di Google, bisogna sapere che Google utilizza molti altri tool simili e altri crawler e fetcher per eseguire le azioni per tutti gli altri suoi prodotti. Googlebot è soltanto il più noto e il principale, ma per ciascun prodotto del “pacchetto” Google/Android per gli smartphone ci sono diversi bot per ciascuna funzione e compito. I bot di Google sono raccolti in tre tipologie:

  1. Cralwer comuni: tra cui si annovera Googlebot e che sono utilizzati per la scansione e l’indicizzazione dei contenuti web. La loro caratteristica distintiva è che seguono sempre le regole del file Robots.txt
  2. Crawler speciali: si tratta di software che svolgono funzioni specifiche e utilizzati da programmi specifici. Per esempio, AdSense controlla specificatamente la qualità degli annunci, il bot immagini scansiona le immagini, il Mobile Apps Android controlla solo le app Android, il bot video scansiona i video, il googlebot delle newsfeed scansiona le notizie e così via per ciascun prodotto Google.
  3. Fetcher attivati da utenti: sono quei software di scansione che vengono appositamente attivati dall’utente come, per esempio, Google Site Verifier. Questi fetcher ignorano le regole del file robots.txt, perché attivati dagli utenti in determinate circostanze.

Fino a maggio 2019, Googlebot era stato “mantenuto” obsoleto. Ovvero limitatamente ai prodotti e software in uso nel mondo, ma dal 2019 è stato richiesto – anche da parte di molti operatori del settore – un aggiornamento tecnico fondamentale che rendesse il crawler di Google sempre e automaticamente aggiornato all’ultima versione disponibile di Chromium , in modo tale da aggiornare costantemente gli indici, i cataloghi e i contenuti in tempo reale e non periodicamente. In altre parole, l’aggiornamento di Googlebot rende possibile supportare oltre 1000 nuovi features e nuove funzionalità anche in Javascript che fino a poco tempo fa presentava ancora delle limitazioni. Questa evoluzione per i webmaster e gli sviluppatori significa la possibilità di creare siti più facilmente indicizzabili e la creazione di pagine web compatibili con qualsiasi software di creazione. Uno dei limiti di Javascript, per esempio, nelle indicizzazioni era la doppia scansione del bot di Google. Ancora, Google necessita di eseguire prima una scansione dei siti scritti in Javascript, poi ripete l’operazione per effettuare il rendering, ossia la restituzione Grafica del sito in modo completo. Eliminare la doppia fase accelera ulteriormente la capacità di trovare contenuti e indicizzarli.

L’aggiornamento definito di Googlebot ha effetti anche per i SEO e gli sviluppatori perché comporterebbe meno preoccupazioni nell’interpretazione delle risorse di vario tipo, incluse le web app più moderne e riducendo il ricorso al rendering dinamico come soluzione alternativa. L’aggiornamento costante di Googlebot potenzia il suo DB e si adatta continuamente ai cambiamenti e agli aggiornamenti in Chromium.

FAQ

Quanto spesso il crawler di Google effettua la scansione?

La frequenza di scansione varia a seconda dei siti. Infatti, c’è una funzione che permette a Googlebot di separare gli indici in sezioni, una di queste è la sezione “daily or fresh” in cui si sottopongono a scansione tutti i siti che si aggiornano frequentemente come quelli delle news o di uno shop online, mentre per i siti per esempio dei musei o che non vengono aggiornati frequentemente se non per mostre temporanee, la scansione è più diluita nel tempo. Mentre se i googlebot si accorgono di un sito “superspam” smettono di scansionarlo.

Come capire se il mio sito è visitato da Googlebot?

Il passaggio dei bot di Google lascia tracce visibili nei log referrer (visibili sul desk gestionale del sito).

È possibile bloccare l’accesso ai bot di Google?

È possibile disattivare la scansione di Googlebot, senza ripercussione sull’indicizzazione o il ranking, indicando al server che ospita il sito di rispondere alle visite dei bot di Google con un codice di stato HTTP421 o anche inviare un messaggio al team di Googlebot di bloccare le visite. In questi casi, Googlebot può eseguire la scansione del sito limitatamente ai primi 15 MB dei contenuti di un file HTML al solo scopo di indicizzazione. Il limite non si applica a immagini e video

Qual è il motore di ricerca più usato?

Google è usato dal 91,88% della popolazione mondiale. La restante porzione è distribuita tra BING (3,19%) il motore di ricerca di proprietà Microsoft nato nel 2009, Yandex (1,52%) il motore di ricerca più utilizzato in Russia, Yahoo! (1,33%), Baidu (0,76%) il più popolare in Cina.

Cos’è Baidu?

Baidu è il motore di ricerca più usato in Cina, da oltre 1 miliardo di persone e a parte Google, dopo Bing e Yandex è considerato il terzo motore di ricerca più usato nel mondo, superando spesso Yahoo!.

Autore: Enrico Mainero

Immagine di Enrico Mainero

Dal 2011 Direttore Responsabile e Amministratore unico di ElaMedia Group SRLS. Mi dedico prevalentemente all'analisi dei siti web e alla loro ottimizzazione SEO, con particolare attenzione allo studio della semantica e al loro posizionamento organico sui motori di ricerca. Sono il principale curatore dei contenuti di questo Blog (assieme alla Redazione di ElaMedia).

Segnalaci un errore, un refuso o un suggerimento per migliorare l'articolo

Chiama l'800 119 270 o scrivici per un preventivo

Formula del consenso

L’interessato autorizza al trattamento dei propri dati personali (Informativa Privacy ex art. 13 Reg. (UE) 2016/679; clicca qui per sapere come gestiamo Privacy e Cookie)