Indicizzazione dei file PDF in Google
05/03/2009
La capacità di Google di leggere i testi nei file PDF apre nuove possibilità al posizionamento nei motori di ricerca.
Da Mountain View, quartier generale di Google, arriva la comunicazione ufficiale che il motore di ricerca è in grado di leggere i testi contenuti nei file PDF (Adobe Portable Document Format), convertendo automaticamente le immagini in parole ricercabili ed indicizzabili.
La regola fondamentale dell'indicizzazione nei motori di ricerca si può riassumere nella frase: "tutto ciò che non è leggibile non è indicizzabile". Infatti uno degli aspetti fondamentali su cui si basano gli algoritmi di ricerca è la capacità di leggere i testi presenti nelle pagine web e di ricercare al loro interno le parole chiave utilizzate dagli utenti dei motori di ricerca. Fino a qualche tempo fa ciò comportava che i testi scritti in file PDF pubblicati in un sito web non potevano essere letti dagli spider dei motori e quindi non venivano indicizzati.
In passato Google era già in grado di indicizzare i file PDF, ma la loro lettura era limitata ai titoli e ai metadata (informazioni come l’autore e la descrizione contenuti all’interno di un file PDF). Negli ultimi anni Google ha lavorato molto con la tecnologia OCR per il riconoscimento dei caratteri, grazie al progetto Google Book Search per la digitalizzazione e ricerca di libri e newspapers, uno dei tanti servizi di Google che ampliano le funzionalità del motore di ricerca.
Sebbene i file PDF non siano così numerosi come le pagine web in formato HTML o altri formati, essi contengono spesso informazioni utili altrimenti non disponibili. I risultati contenenti file PDF sono riconoscibili nei risultati di Google in quanto riportano l'indicazione blu [PDF] davanti al titolo. Se si seleziona un risultato contenente questa indicazione, viene aperto automaticamente il programma Acrobat Reader che consente la visualizzazione del file.
Selezionando invece la voce “Versione HTML” il contenuto del file PDF sarà visualizzato come testo scritto in una pagina web:
E’ anche possibile visualizzare i risultati senza i collegamenti ai file PDF: basta digitare "-filetype:pdf" insieme ai termini ricercati nella casella di ricerca di Google:
Dunque l’espansione delle ricerche anche ai file PDF è un ulteriore tappa della “digitalizzazione del web” intrapresa da Google ed un metodo per rintracciare ulteriori contenuti utili da visualizzare nei risultati nelle ricerche, aumentando le possibilità di guadagno del colosso di Mountain View.
La rintracciabilità dei file PDF nei risultati di ricerca sottolinea l’importanza di mantenere aggiornato il proprio sito web con nuovi contenuti sempre ottimizzati tramite le keyword di interesse, fornendo così un ulteriore canale per migliorarne il posizionamento nei motori di ricerca.


