Come avviene l’indicizzazione

La procedura di indicizzazione di un sito web nei motori di ricerca prevede diverse fasi che dipendono dal motore stesso e che hanno come obiettivo la presenza delle pagine del sito nei risultati delle ricerche.

Le attività svolte dai motori di ricerca si riassumono in poche azioni:

  • esplorare la rete internet
  • archiviare pagine web
  • verificarne l'attinenza rispetto alle ricerche eseguite dagli utenti

L’esplorazione della rete, detta “crawling”, avviene tramite gli agenti software dei motori di ricerca, detti "spider" o "bot", che navigano nel web alla ricerca di nuovi siti da includere nel proprio archivio.

L’inclusione di un documento nel database del motore di ricerca costituisce l’ indicizzazione: le varie pagine trovate sul web vengono inserite nell’archivio, pertanto gli archivi dei motori di ricerca contengono centinaia di milioni o anche miliardi di pagine. Ad esempio l’indice di Google, che al momento è il più esteso, conta più di otto miliardi di pagine!

Infine quando un utente esegue una ricerca il motore cerca fra i siti indicizzati all'interno del proprio archivio ed effettua la selezione e l’ordinamento dei siti web in esso memorizzati che sono pertinenti con la ricerca effettuata.

L’ indicizzazione di un sito web o di una pagina web negli archivi dei motori di ricerca può avvenire in maniera automatica, in quanto gli spider rivisitano periodicamente le pagine che hanno già memorizzato nel loro indice, cercandovi eventuali nuovi link per ottenere una lista di nuovi siti da visitare ed includere.

La registrazione nei motori di ricerca non può essere effettuata direttamente dal proprietario del sito, ma ciò che si può fare è segnalarne l'esistenza al motore. I motori di ricerca inseriranno l'indirizzo del sito nella lista dei siti da visitare e successivamente lo includeranno nel loro indice. L’ indicizzazione del sito web può pertanto richiedere tempi anche lunghi, da poche settimane a diversi mesi.

Dal momento che i motori di ricerca indicizzano le singole pagine, registrare un sito comporta la registrazione di tutte le pagine che lo compongono o almeno di quelle più rilevanti. Poiché non tutte le pagine potrebbero essere inserite nell’indice del motore, non è facile definire un sito come "registrato": si può definire tale quando la home page e le pagine più importanti e rilevanti del sito sono entrate stabilmente a far parte dell'archivio del motore di ricerca. Stabilmente, in effetti, non significa per sempre, dal momento che le pagine possono essere tolte dall'archivio o reinserite senza alcun preavviso e la definitiva inclusione è raggiunta solo quando il motore di stabilizzerà i contenuti del database. Ad esempio Google effettua circa una volta al mese tale stabilizzazione del suo archivio.

Per avere un posizionamento naturale nei motori di ricerca è dunque necessario essere presenti nei loro indici: ciò può essere ottenuto o attraverso link da altri siti già presenti negli indici o attraverso la segnalazione del sito web ai motori di ricerca.

La continua ricerca di nuovi siti web e l’ampliamento del proprio archivio è una attività fondamentale di un motore di ricerca: infatti per soddisfare una ricerca effettuata da un utente il motore individua le pagine più pertinenti contenute nel suo indice e le restituisce all’utente in ordine di rilevanza. Pertanto al fine di offrire agli utenti dei risultati interessanti ed aggiornati ogni motore di ricerca cerca di ampliare il più possibile il proprio indice, in modo da avere più possibilità di trovare pagine pertinenti a tutte le richieste degli utenti.

Per tale motivo i migliori motori di ricerca si distinguono innanzi tutto per la quantità di pagine memorizzate (ovvero l’ampiezza del proprio indice) e per la capacità di stabilire l’attinenza del contenuto delle pagine rispetto alle ricerche. Inoltre un buon motore di ricerca deve aggiornare spesso le pagine presenti nel proprio indice, passando frequentemente a prelevare tali pagine dai siti di origine per memorizzarne nuovamente il contenuto nel caso questo fosse cambiato dalla sua ultima visita. Se ciò non avvenisse una pagina potrebbe risultare posizionata per ricerche poco pertinenti con il suo attuale contenuto.

scarica allegato