Che cos'è Googlebot?
Googlebot è il nome dato ai web crawler di Google che raccolgono informazioni per vari servizi di Google, tra cui l'indice di ricerca.
Ha due versioni principali: Googlebot Desktop e Googlebot Smartphone. Con l'indicizzazione mobile-first, Googlebot Smartphone è diventato il crawler principale dell'indice di ricerca di Google.
Come funziona Googlebot?
Googlebot effettua costantemente il crawling del web per scoprire nuove pagine, le invia per l'elaborazione per aggiungerle all'indice di ricerca e le ricampiona per cercare nuove informazioni o aggiornamenti.
Durante questo processo, Googlebot segue rigorosamente le regole dei file robots.txt e le direttive per i crawler su pagine e link.
Perché Googlebot è importante?
Googlebot è uno degli strumenti principali che alimentano l'intero motore di ricerca Google. Senza di esso, l'intera ricerca (e quindi la SEO) non esisterebbe. Se Googlebot non effettuasse il crawling di un sito web, questo non sarebbe indicizzato e visibile nei risultati.
Pertanto, i professionisti SEO e i webmaster devono capire come funziona Googlebot. Inoltre, è importante garantire che il crawler acceda al sito in modo corretto, senza problemi di crawlability o discoverability.
Migliori pratiche per un sito web a prova di strisciante
Se volete che Googlebot effettui il crawling del vostro sito web in modo corretto e che le pagine vengano indicizzate, dovete assicurarvi che alcune cose siano a posto. Poiché non si tratta di un evento unico, di seguito sono elencate alcune delle migliori pratiche da seguire regolarmente per mantenere un sito web crawl-friendly.
1. Controllare il file Robots.txt
Il file Robots.txt sul sito web permette di controllare ciò che viene crawlato. Comunica con i bot utilizzando le direttive di crawler.
È necessario assicurarsi che il file robots.txt non impedisca a Googlebot di scorrere le pagine/sezioni del sito web che si desidera indicizzare.
Successivamente, verificare la presenza di eventuali errori nel file utilizzando gli strumenti di verifica di robots.txt.
È necessario assicurarsi che il robots.txt sia accessibile a Googlebot, ossia che non sia bloccato a livello di server.
2. Inviare le sitemap
L'invio di sitemap è il modo più semplice per far sapere a Google quali pagine volete che vengano crawlate e indicizzate.
Creare sitemap non è difficile se si utilizza un qualsiasi plugin SEO popolare su WordPress, come Yoast o Rank Math. Questi creeranno automaticamente delle sitemap che potrete inviare.
L'URL generato avrà il seguente aspetto: yourdomainname.com/sitemap_index.html
Per inviare manualmente una sitemap URL, è necessario visitare Google Search Console e fare clic su "Sitemaps" nella sezione "Indice" del menu principale.
3. Usare le direttive del crawler con saggezza
Oltre al file robots.txt, esistono direttive a livello di pagina che notificano ai crawler quali pagine sono autorizzate (o non autorizzate) a essere scansionate.
Pertanto, è necessario assicurarsi che le pagine che si desidera indicizzare non abbiano la direttiva "noindex". Allo stesso modo, assicuratevi che non abbiano una direttiva "nofollow" se volete che anche i loro link in uscita vengano scansionati.
Potete utilizzare SEO Toolbar per Chrome e Firefox per controllare le direttive sulle vostre pagine.
4. Fornire collegamenti interni tra le pagine
Un altro modo semplice per aiutare una pagina a essere indicizzata più velocemente è quello di collegarla a un'altra pagina già indicizzata. Poiché Googlebot esegue nuovamente la scansione delle pagine, troverà il link interno e lo scansionerà rapidamente.
Oltre al crawling, il linking interno trasmette il cosiddetto "link juice" alle pagine, aumentandone il PageRank.
5. Usare l'audit del sito per trovare problemi di indicizzazione e crawlabilità
Infine, è possibile utilizzare gli strumenti di Site Audit per individuare i problemi di indicizzazione e crawlabilità dei siti web.
Il Site Audit può aiutarvi a trovare pagine rotte, redirect eccessivi, catene di redirect, pagine noindex, link nofollow, pagine orfane (senza link interni) e altro ancora.
Potete monitorare gratuitamente lo stato di salute SEO del vostro sito web con strumenti come il Web Audit di Ranktracker.
Domande frequenti
Crawling e indicizzazione sono la stessa cosa?
No, le due cose non sono la stessa cosa. Il crawling implica la scoperta di pagine e collegamenti sul Web. L'indicizzazione si riferisce alla memorizzazione, all'analisi e all'organizzazione dei contenuti e dei collegamenti tra le pagine trovati durante il crawling.
Solo dopo che una pagina è stata indicizzata è disponibile per essere visualizzata come risultato per le query pertinenti.
Posso verificare se un web crawler che accede al mio sito è davvero Googlebot?
Se si teme che spammer o altri malintenzionati accedano al sito web dichiarando di essere Googlebot, è possibile verificare il crawler per vedere se è effettivamente un crawler di Google.
Qual è il crawler principale di Googlebot?
Googlebot Smartphone è oggi il crawler principale.
Token dell'agente utente: Googlebot
Stringa completa dell'agente utente: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, come Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatibile; Googlebot/2.1; +http://www.google.com/bot.html)
L'elenco completo dei crawler di Googlebot è disponibile qui.