Trust Rank

Il Trust Rank (TR) è un algoritmo brevettato da Google che indica quanto un sito sia affidabile e senza contenuti spam, definendone un indice di affidabilità o fiducia. Ciò permette di valutare l'indice di credibilità di un sito web, con l’obiettivo di combattere i siti spam che deteriorano la qualità dei risultati dei motori di ricerca.

Mentre il Page Rank valuta l’importanza di una singola pagina, ma non ne valuta il suo valore in termini di credibilità del contenuto, il Trust Rank valuta l’intero sito web definendone un indice di affidabilità o fiducia.

Uno dei problemi che i motori di ricerca hanno cercato di combattere negli ultimi anni è la crescita della pubblicazione di pagine web create con il solo scopo di ingannare i loro algoritmi, dette pagine spam. Tali pagine vengono realizzate con tecniche che permettono di inserire testo nascosto ai navigatori ma visibile ai motori di ricerca, così da ottenere un buon posizionamento relativamente ad argomenti che non hanno niente a che fare con il contenuto visibile delle pagine, oppure creando decine o centinaia di pagine inutili per gli utenti contenenti uno o più link verso una specifica pagina al fine di migliorarne il posizionamento nei motori di ricerca grazie all’aumento della link popularity e del Page Rank.

Dato che i webmaster che utilizzano tecniche illecite di spam sono stati in grado di manipolare il PR dei propri siti, i ricercatori del Digital Library Technologies dell'Università di Stanford hanno pensato ad un meccanismo per valutare l'indice di credibilità di un sito web, il Trust Rank appunto, e combattere così i siti spam che deteriorano la qualità dei risultati dei motori di ricerca. Tale algoritmo è stato poi brevettato da Google ed è in parte basato sulla valutazione dei siti effettuata da personale esperto, con l’obiettivo di risolvere il problema dello spam negli indici dei motori di ricerca.

L’algoritmo di Trust Rank valuta a campione alcune pagine, verifica l’assenza di link a siti spam o a siti penalizzati e assegna un valore al sito esaminato. Per questo motivo è molto importante valutare bene da quali siti si viene linkati e verificare che i siti linkanti non si trasformino in siti spam.

Il meccanismo utilizza tecniche semi-automatiche per separare le pagine degne di reputazione da quelle di spam, ovvero pagine “spazzatura” piene di link finalizzati a modificare il calcolo del Page Rank per migliorarne il posizionamento.

Le fasi di assegnazione del Trust Rank sono:

  1. viene selezionato automaticamente un piccolo insieme di pagine non ancora classificate, dette “pagine seme” (seeds pages)
  2. un esperto di Google valuta tali pagine per identificare quelle degne di credibilità (good page, ovvero che non effettuano spam) e distinguerle da quelle non credibili (bad page, ovvero che effettuano spam)
  3. viene poi creata una struttura di link per scoprire altre pagine affidabili e l’algoritmo processa l’intero indice del motore di ricerca, assegnando ad ogni pagina presente un punteggio di “trust” (fiducia) basato sul grado di vicinanza alle pagine seme “non spam” nel grafo del web
  4. l’algoritmo in base al punteggio di trust determina il posizionamento delle pagine nelle SERP

I risultati mostrano che si può filtrare efficacemente lo spam da una frazione significante del web, basata su di un insieme di 200 siti trust.

Tale algoritmo però ha dei limiti:

  • innanzitutto l’intervento umano, che elimina una parte di automazione nel processo di ranking da parte del motore di ricerca
  • l’incapacità dell’algoritmo di giudicare una pagina spam da una con contenuti esaurienti, unici ed utili per il visitatore
  • il fatto che una volta che una pagina viene classificata come good page essa in futuro potrà sempre linkare una pagina spam rendendola affidabile

In ogni caso la comparsa del Trust Rank ha determinato una maggiore scrematura dei risultati delle ricerche, riducendo la presenza di siti spam e rendendo le SERP più “pulite”.

scarica allegato