Autres
critères utilisés par Google (suite)TrustRank
Le TrustRank remplace t-il le pageRank ? Tout le monde n'est pas d'ccord sur ce
point mais une évolution du pagerank est clairement perceptible. Le
TrustRank est un algorithme destiné à calculer l'indice de confiance
d'une page web. L'objectif du TrustRank est de lutter contre le web spamming. Le
terme est apparu lors de la publication d'un document écrit par Zoltán
Gyöngyi, Hector Garcia-Molina (tous les 2 de Stanford University comme les
2 créateurs de Google) et Jan Pedersen de Yahoo! Inc. Le document s'appelle
"Combating Web Spam with TrustRank" et a été publié
le 1er mars 2004. Il est disponible sur internet (voir la page liens).
Voici
une traduction du sujet ("abstract") de ce document
" De nombreuses
techniques sont utilisées dans le webspamming pour acquérir un meilleur
positionnement que celui mérité dans les pages de résultats
des moteurs de recherche. Il est aisé pour un expert humain d'identifier
du spam, mais il est évidemment trop onéreux d'évaluer manuellement
un grand nombre de pages. Nous proposons des techniques pour différencier
de façon semi-automatique des pages fiables du spam. Dans un premier temps
nous sélectionnons un petit ensemble de pages de confiance qui seront évaluées
par un expert. Une fois les pages de confiance manuellement identifiées,
nous utilisons la structure en lien du web pour repérer d'autres pages
qui paraissent d'aussi bonne qualité. Dans ce document, nous présentons
differentes manières de mettre en place la sélection des pages de
confiance et la découverte des pages de qualité. Nous présentons
le résultat de nos expérience effectuées sur le web indexé
par Altavista et l'évaluation de nos méthoqes. Nos résultats
montrent qu'il est possible de filtrer efficacement le spam sur une partie significative
du web à partir d'un ensemble constitué de pages de confiance sur
plus ou moins 200 sites. "
Version originale " Web spam pages
use various techniques to achieve higher-than-deserved rankings in a search engines
results. While human experts can identify spam, it is too expensive to manually
evaluate a large number of pages. Instead, we propose techniques to semiautomatically
separate reputable, good pages from spam. We first select a small set of seed
pages to be evaluated by an expert. Once we manually identify the reputable seed
pages, we use the link structure of the web to discover other pages that are likely
to be good. In this paper we discuss possible ways to implement the seed selection
and the discovery of good pages. We present results of experiments run on the
World Wide Web indexed by AltaVista and evaluate the performance of our techniques.
Our results show that we can effectively filter out spam from a significant fraction
of the web, based on a good seed set of less than 200 sites. " Cette
nouvelle notion de TrustRank montre comment le spam d'un côté et
la lutte anti-spam de l'autre côté progressent. 3 phases peuvent
être distinguées : - Il y a quelques années, les
moteurs donnaient la même d'importance à chaque lien. Pour avoir
un bon référencement et positionnement, il fallait donc simplement
avoir le plus de liens entrants possibles C'est l'indice de popularité.
- Ensuite,
Google a accordé plus d'importance aux liens issus des pages populaires.
Cette popularité se traduit par le PageRank. Avoir un bon référencement
signifie alors avoir le plus de liens possibles en provenance des pages les plus
populaires (le PageRank le plus élevé).
- Aujourd'hui, Google
analyse le niveau de confiance d'un site, c'est l'indice de confiance ou TrustRank.
Comme vu plus haut Google se base d'une part sur un ensemble d'environ 200
sites dits contenant des pages de confiance déterminé par des humains
et d'autre part sur l'analyse des réseaux de liens. Avoir un bon référencement
signifie alors avoir le plus de liens possibles en provenance des pages de confiance
(le TrustRank le plus élevé).
TrustRank brevet Le
16 mars 2005, Google dépose le nom de marque TrustRank auprès de
l'United States Patent and Trademark
Office. Il n'est pas sûr que ce soit en lien direct avec l'article détaillé
ci-dessus puisque un des auteurs travaille pour Yahoo et que l'expérience
a été mené sur Altavista propriété de Yahoo.
Google et Yahoo sont les meilleurs ennemis du monde. TrustRank et Sandbox
= Trustbox ?
Si il n'y a pas de vrai Sandbox (voir page précédente),
la Sandbox virtuelle est peut être une Trustbox. L'utilisation par Google
d'un nouveau critère proche du TrustRank peut donner l'illusion d'une Sandbox
car le facteur temps y est important.
|