Quanto è importante il posizionamento su Google? Pensate solo al fatto che il 70% delle ricerche effettuate riguardano la prima pagina di Google. Il resto delle pagine, a partire dalla seconda, si giocano le frazioni rimanenti di traffico. Ancora meglio: le prime tre posizioni assorbono quasi il 65% del traffico complessivo. Viene naturale chiedersi perché tutti i siti con attività commerciale non facciano posizionamento? E’ ovvio che con queste cifre essere visibili su Google diventa strategico. Ecco alcune nozioni pratiche sull’indicizzazione dei siti, che possono chiarire dei dubbi circa il funzionamento del motore.
Come funziona Google?
Quando abbiamo provato a spiegare a dei profani il funzionamento del motore di ricerca di Mountain View in molti sono rimasti scioccati da una rivelazione: che quando effettuano una ricerca sul web tramite Google in realtà non stanno cercando sul web vero e proprio, la rete mondiale internet, ma su quella porzione correttamente indicizzata da Google e che non corrisponde allo stato attuale della rete. Infatti, su Google esiste una versione indicizzata che solo nei siti di news e in quelli estremamente autorevoli corrisponde all’attuale versione dei siti web correntemente online. In parole povere: se faccio una modifica a un sito, inserendo una nuova pagina, e la cerchiamo immediatamente su Google, ci accorgeremo subito che essa non esiste. Eppure sul sito web c’è.
Ne deriva che l’indicizzazione è un procedimento che richiede tempo e che il tasso di indicizzazione dipende dalla capacità di crawling offerta dal sito. L’indicizzazione non può avvenire senza un passo necessario: il crawling. Crawling significa letteralmente intrufolarsi, ed è proprio quello che fanno gli spider di Google, il più famoso dei quali è googlebot. I crawlers di Google seguono i link e analizzano le informazioni reperite sulle pagine web, esattamente come farebbe un umano, navigando di pagina in pagina tramite hyperlink, solo che lo fa in modo automatico, a una velocità nettamente superiore. Questi crawler tentano di indicizzare e analizzare ogni pagina presente sul web, per organizzare la conoscenza, come asserisce Google, ma si stima che Google indicizzi solo il 10% del web esistente.
Il processo di crawling parte da una buona struttura del sito, notoriamente dalla sitemap che raccoglie in modo gerarchico le url presenti in ogni root. Tecnicamente è possibile indicizzare pure senza sitemap, se la struttura del sito è gerarchica e ben organizzata. Ma comunicare con i motori di ricerca tramite una sitemap è un’operazione che porta frutti. Google ha degli algoritmi con i quali è in grado di identificare quante volte deve lanciare googlebot su uno specifico sito e quali pagine indicizzare o deindicizzare. In questo modo è in grado di battere a tappeto la rete, cercando nuovi collegamenti e nuovi siti. Il crawling dipende dal concorso di più algoritmi: in alcuni siti può avvenire ogni giorno, in altri ogni 6 mesi. Il posizionamento su Google dipende dal crawling e dalla successiva indicizzazione (si rimanda serviziposizionamento.com per maggiori dettagli e informazioni tecniche),: se un sito non viene analizzato con Googlebot esso semplicemente non viene indicizzato. E’ possibile testare questa capacità dello spider immettendo le giuste istruzioni su un file detto robots.txt, che appunto contiene delle righe di comando rivolte agli spider. Tramite questi comandi possiamo impedire a Google di indicizzare più determinate aree del sito.
In altri casi Google può irrogare una sanzione, penalizzando il sito e togliendolo dall’indice se ritiene che sia dannoso per la navigazione o perché abbia violato le linee guida del motore di ricerca. Ci sono molti motivi per cui il crawling non può andare a buon fine e tanti di questi spiegano il mancato posizionamento nelle prime pagine del motore. Capire come funziona il motore è il primo passo per avere un sito in linea con le sue aspettative.