Google est-il un moteur de recherche efficace ?

Le moyen privilégié de rechercher une information sur le Web est d'utiliser un moteur de recherche par mots-clefs, comme Google. Mais ces moteurs de recherche sont-ils toujours capables de trouver l'information recherchée ?

Si vous essayez d'utiliser Google pour trouver le numéro de téléphone d'un de vos amis qui figure dans l'annuaire, ou pour en savoir plus sur les Deux hymnes généthliaques rédigés au XVIe siècle pour la naissance du comte de Soissons, il y a toutes les chances que vous n'obteniez aucun résultat pertinent. Pourtant ces deux informations ce trouvent sur le Web : le numéro de téléphone dans les Pages Blanches [1] et le texte complet de ces deux hymnes dans Gallica [2], la bibliothèque numérique de la Bibliothèque nationale de France. Or les moteurs de recherche traditionnels n'indexent que du contenu provenant du Web de surface, c'est-à-dire de l'ensemble des pages Web accessibles en suivant des liens, tandis que ces deux sources d'information font partie du Web caché (on parle aussi de Web profond ou Web invisible) : pour accéder aux données correspondantes, il faut impérativement remplir un formulaire de recherche. Ces exemples ne sont pas anecdotiques, car selon une étude [3] datant de 2001, il y a 500 fois plus de données dans le Web caché que dans le Web de surface. En d'autres termes, la plus grande partie du contenu du Web n'est pas exploitable par les moteurs de recherche traditionnels !

Les chercheurs de Google ont décrit récemment [4] leur stratégie pour aborder le contenu du Web caché : les robots qui indexent le Web vont tenter de remplir les champs des formulaires qu'ils rencontrent (il faut bien entendu le faire de manière pertinente, en utilisant par exemple des mots-clefs présents dans le contexte de la page Web), et de stocker les pages de résultat correspondants dans l'index général du moteur de recherche. Cette stratégie est d'ores et déjà expérimentée, même si peu de résultats provenant du Web caché sont actuellement visibles. L'approche favorisée par Google est une approche en extension : le but est d'aspirer une grande partie du contenu des sources du Web caché pour ensuite traiter le contenu résultant comme le reste du Web. L'inconvénient principal de cette technique est qu'elle nécessite un très grand nombre d'échanges entre le robot et le serveur Web. Une approche plus ambitieuse et plus complexe à mettre en œuvre, dite en compréhension, consiste à déterminer automatiquement la structure des formulaires de requête et des pages de résultat correspondantes, afin de comprendre comment interroger un service du Web caché, et quel genre d'informations ce service peut fournir. Il suffirait ensuite d'interroger au cas par cas tel ou tel service pertinent en fonction de la requête posée par un utilisateur.

Google permet-il donc de retrouver les informations présentes sur le Web ? En ce qui concerne le Web de surface, oui en général, même si là encore des limitations existent : certaines pages (trop éphémères ou trop peu référencées) et certains formats (les sites en Flash par exemple) ne sont pas ou sont mal indexés, tandis que le format de requête par mots-clefs limite le genre de recherches que l'on peut effectuer. Pour le Web caché, en revanche, il faudra attendre une nouvelle génération de moteurs de recherche, qui soit capable de gérer, en extension ou en compréhension, le contenu de ces bases de données.

[1] http://www.pagesjaunes.fr/pagesblanches/RecherchePagesBlanches.do

[2] http://gallica.bnf.fr/

[3] BrightPlanet, « The deep Web : Surfacing hidden value », White Paper, juillet 2001.

[4] J. Madhavan, A. Y. Halevy, S. Cohen, X. Dong, S. R. Jeffery, D. Ko et C. Yu, « Structured data meets the Web: A few observations. » IEEE Data Engineering Bulletin, vol. 29, 4, pp. 19-26, décembre 2006.