Google e i siti multi lingua

01/04/2010

Roberto Ciri

Come si comporta Google di fronte ai siti in più lingue? Quali problematiche si hanno nell'indicizzazione di un sito multi lingua? E quali consigli fornisce Google in proposito?

Un sito web multi lingue è sito web che offre contenuti in più di una lingua. È utile avere un sito web multi lingue quando esso si rivolge a persone che parlano lingue diverse o si vuole espandere il proprio business all’estero.

Come si comporta Google con i siti in più lingue?

Google cerca di determinare le principali lingue in cui è scritta ogni pagina web. Per rendere il riconoscimento delle lingue più facile conviene utilizzare una sola lingua per pagina ed evitare le traduzioni side-by-side, ovvero avere in una stessa pagina un testo presentato in una o più lingue.

Quindi è importante utilizzare lo stesso linguaggio per tutti gli elementi di una pagina: intestazioni, menù di navigazione, titoli, testi, ecc…

Google inoltre ignora tutte le informazioni sul linguaggio a livello di codice HTML, ovvero relative all’attributo "lang" del Document Type Definitions (DTD).Per rendere visibile un sito multi lingue nei risultati di ricerca Google fornisce i seguenti consigli:

Struttura degli URL

Non è necessario creare URL speciali per l'elaborazione di un sito web multi lingue. La struttura degli URL può però essere utile agli utenti per individuare in quale sezione multi lingua del sito web si trovano semplicemente guardando l'URL.

Ecco un esempio di URL che consentono agli utenti di sapere che sono nella sezione inglese o francese del sito:

nomesito.com/en/sales.htm
en.nomesito.com/sales.htm

nomesito.com/fr/sales.htm
fr.nomesito.com/sales.htm

Tale struttura degli URL rende anche più facile analizzare l'indicizzazione dei contenuti scritti in più lingue.

Nel caso si desideri creare URL contenenti caratteri non stranieri è necessario assicurarsi di utilizzare la codifica UTF-8.

Scansione e indicizzazione del sito web multi lingue

Un problema relativo all’indicizzazione delle pagine in lingue diverse si pone nel caso di traduzioni automatiche dei testi delle pagine realizzate tramite dei software. Le traduzioni automatiche non sempre hanno un senso compiuto e i testi tradotti automaticamente potrebbe potenzialmente essere considerati come spam.

Inoltre se gli utenti non riescono a capire il testo tradotto automaticamente o lo sentono “artificiale”, si rischia di perdere l’obiettivo di un sito web multi lingue: raggiungere un pubblico più vasto fornendo contenuti di valore in più lingue.

Per ottenere l’indicizzazione di tutte le pagine del sito nelle diverse lingue è importante facilitare allo spider Googlebot la scansione di tutte le versioni linguistiche del sito. Per fare ciò è utile effettuare il cross-linking pagina per pagina, ovvero inserire collegamenti tra le pagine con lo stesso contenuto ma in lingue diverse. Questo può anche essere molto utile agli utenti, come nel caso in cui essi trovino nei risultati di ricerca una pagina scritta in una lingua differente dalla propria lingua: la presenza di un link alla versione della pagina relativa alla propria lingua fornisce un utile servizio all’utente.

Un altro aspetto di cui tenere conto per rendere tutti i contenuti del sito ben individuabili da Google è evitare reindirizzamenti automatici in base alla lingua dell'utente desunta dalla sua localizzazione geografica. Questi reindirizzamenti possono impedire che gli utenti, ed anche ai motori di ricerca, di visualizzare tutte le versioni del sito.

Un ultimo aspetto importante è mantenere il contenuto per ogni lingua su un URL separato.

Utilizzo di codifiche dei caratteri

Google estrae direttamente le codifiche dei caratteri dalle intestazioni HTTP, dalle intestazioni HTML e dal contenuto di una pagina. L’unico aspetto di cui tenere conto relativamente la codifica dei caratteri è che non ci siano informazioni in conflitto fra contenuto ed intestazioni HTTP o HTML. Dal momento che Google è in grado di riconoscere codifiche di caratteri diversi, si consiglia di utilizzare la codifica UTF-8 sul sito web, quando possibile.

scarica allegato