
Ne vous êtes vous jamais retrouvé hébété devant une recherche internet, pourtant simple, dont les résultats étaient totalement hors sujet ? C’est en vivant pour la énième fois cette expérience que je me suis demandé comment seraient les moteurs de recherche du futur, à quoi ils ressembleraient et comment ils pourraient fonctionner.
La relation entre l’homme et la machine ont toujours tourné autour de deux grands axes : Les capacités de la machine, et l’interface homme-machine, c’est-à-dire l’ergonomie. Je vous propose un petit passage dans la science-fiction, pour essayer ensemble et sans nous poser de limites, d’imaginer ces moteurs de recherches du futur.

La recherche d’information :
Commençons par la recherche classique d’informations, celle que nous faisons tous chaque jour sur Google ou autres pour trouver un site, une page, bref une information quelconque. Sans rentrer dans les détails, la conception actuelle des moteurs de recherche est toujours la même. Ils cherchent des résultats à partir d’une série de mots-clés puis trient ces résultats dans un ordre qui leur est propre.
Avec l’explosion de l’internet grand public et la multiplication des pages, donc des sources de mots-clés, les résultats sont devenus de plus en plus approximatifs au point que trouver une information précise tient souvent de la chance. Même retrouver une page dont on ne se rappelle plus l’adresse alors qu’on sait parfaitement de quoi elle parle peut se révéler impossible.
La recherche en langage naturel :
La recherche en langage naturel est sans doute la première piste à suivre. Un des freins les plus marquants dans l’utilisation d’un moteur de recherche est qu’il ne parle pas comme nous. Prenons un exemple, mettons que je cherche à savoir “qui est le peintre surréaliste qui avait de grandes moustaches”. Posez la question à un humain, normalement il devrait vous répondre Salvador Dali.
Mais si vous tapez la question telle quelle sur Google vous n’obtiendrez aucune réponse concernant Dali sur la première page. Pire, se basant sur les mots clefs les plus marquants, à savoir “peintre” et “surréaliste”, le moteur va vous fournir une liste de réponse comportant d’autres noms qui pourraient vous tromper. Pour avoir votre réponse vous devrez fouiller dans les résultats jusqu’à croiser une photo de Dali ou une description qui vous fasse vous rappeler.
Pour avoir la bonne réponse directement vous devrez réduire votre question à la série de mots-clés “peintre+surréaliste+moustache”. Si l’habitude de formuler ses recherches par mots-clés se prend assez vite, il n’en reste pas moins que pour des recherches comportant des mots-clés plus répandus ça peut devenir un véritable casse-tête.
La sémantique :
A l’opposé du langage naturel, qui est donc une affaire syntaxe, se trouve la sémantique qu’on pourrait grossièrement définir par “le sens des mots”. La encore prenons un exemple simple, mettons que vous cherchiez des informations sur les rennes, vous pouvez taper “rennes”, “rennes animaux”, ou encore “information sur les rennes”, les résultats proposés tourneront tous autour de la ville de Rennes.
Il en est de même pour tous les homonymes, qui sont nombreux dans notre langue, mais aussi plus généralement de tous les mots dont le sens change selon le contexte de la phrase. Prenons un nouvel exemple et mettons que l’on recherche une image d’une belle maison.
Un moteur de recherche actuel va lancer une recherche sur les mots-clés “belle” et “maison”. Les résultats seraient classables en 3 types : Les résultats comportant le mot-clé “belle”, les résultats comportant “maison” et les résultats comportant les 2 termes, ces derniers devraient être présentés en premier.
Pourtant aucun de ces 3 types de résultat ne correspond à notre recherche. Nous ne recherchons pas “belle”, qui peut correspondre à n’importe quoi (belle femme, belle moto etc.). Nous ne cherchons pas non plus “maison”, qui peut très bien correspondre à un taudis. Et en y regardant de plus près nous ne cherchons pas non plus “belle+maison”, qui peut nous renvoyer des résultats comme une belle voiture devant une maison, une belle pagaille dans la maison etc.
L’ensemble est supérieur à la somme de ses éléments. Ce que nous cherchions c’est une image d’une belle maison, c’est-à-dire du sens que prennent ces 2 mots quand ils sont ensembles. Notre moteur de recherche du futur doit donc être capable d’effectuer une recherche en langage naturel, mais aussi de faire une analyse sémantique des termes de la requête pour comprendre le sens de cette recherche.
L’inexprimable :
Pour le moment nous sommes restés plutôt réalistes, le web sémantique est un concept dont on entend de plus en plus parler, les recherches en langage naturel aussi particulièrement pour des systèmes de questions/réponses. Bref pour l’instant nous sommes plus en face du moteur de recherche de demain que de celui du futur.
Je vous avais parlé de science-fiction, alors imaginez un moteur de recherche capable de rechercher l’inexprimable. La grande majorité des recherches nous ne les faisons tout simplement pas parce que nous ne pouvons pas les formuler, ou que leurs formulations seraient beaucoup trop floues.

Encore un exemple. Vous cherchez une recette de cuisine sympa pour vos invités ce soir sachant que l’un d’entre eux ne supporte pas les fruits de mer. Posez la question à votre grand-mère (enfin à quelqu’un qui sait cuisiner) et elle vous sortira une liste de recettes. Vous pouvez toujours essayer avec un moteur de recherche, vous n’avez aucune chance d’avoir ce que vous cherchez.
C’est une question tout ce qu’il y a de plus banale. Pourtant pour qu’un moteur de recherche puisse y répondre il faudrait une véritable révolution dans l’interface homme-machine. Tout d’abord il faudrait qu’il puisse gérer la négation apportée par “sachant que l’un d’entre eux ne supporte pas les fruits de mer”.
C’est-à-dire comprendre que la recette ne doit pas comporter de fruits de mer, mais surtout relier au terme générique “fruits de mer” l’ensemble de ses éléments (moules, huitres, crevettes etc.). Il faudrait pour cela que le moteur puisse substituer un terme de la recherche à un ou plusieurs autres. On pourrait schématiser ce processus de la façon suivante : Reconnaissance d’un terme générique puis remplacement de ce terme par ses éléments présents dans une base de données. Ainsi la recherche ne porterait plus sur “sans fruits de mer” mais sur “sans moules, buccin, huitres, crevettes etc.”
Ensuite il faudrait que le moteur de recherche comprenne le mot “sympa”, dont le sens change non seulement selon le contexte, mais qui est flou par nature puisque totalement subjectif. En schématisant ça pourrait donner : Reconnaissance d’un terme subjectif, recherche sémantique préalable (recherche sur le sens du mot dans le contexte donné, par association “sympa” dans le contexte “recette de cuisine” veux dire “facile a faire”, “pas cher”, “rapide”, “original”, etc.) puis remplacement du terme subjectif par les résultats de la recherche sémantique préalable.
Enfin il faudrait que le moteur de recherche comprenne que cette question n’attend pas une réponse unique. C’est-à-dire qu’il doit pouvoir analyser qu’on attend de lui une liste de recettes de cuisine, dont les spécifications sont “sympa” et “sans fruits de mer”. Pour finir sur l’inexprimable puisque je n’en ai donné qu’un exemple simple, imaginez un moteur de recherche capable de répondre à “montre moi une sélection de sites qui me plairont”.
En conclusion :
Notre moteur de recherche du futur commence déjà à pointer le bout de son nez. Les recherches en langage naturel commencent à devenir une réalité, les systèmes de questions/réponses comme Yahoo answer se multiplient et alors que le grand public n’a pas encore conscience de ce que sera le web sémantique, Google et Microsoft font déjà des rachats de startups présentant ces nouvelles technologies.
Note : A la base j’avais prévu d’autres formes de recherches dans cet article, la recherche d’images et de musiques notamment. L’article étant beaucoup plus long que prévu je garde ça de coté pour un futur article.














A 15:17 Le Mardi 29 juillet 2008
La BD “Les bidochons internautes” sort le 15 septembre 2008. J’ai lu quelques planches qui m’ont fait pleurer de rire et particulièrement une dans la quelle ils battent contre un moteur de recherche.Même avec beaucoup d’imagination, je ne suis pas persuadé qu’ un système très intuitif soit compatible à la mécanique de recherche et de réflexion des bidochons. L’oeuvre caricature internet certes mais contient également plein d’idées ironiques pour tester la pertinence des réponses à une requête “bidochone”.
A 19:01 Le Mardi 29 juillet 2008
Je doute que quoi que ce soit puisse un jour avoir des résultats viable suite à une requête de bidochon ^^
Plus serieusement, ton commentaire précédent sur le sujet “100!”, m’a renvoyé directement au paragraphe concernant la sémantique de cet article. Tu y parlais de Google qui était une valeur mathématique désignant 1 suivi de 100 zéros. J’ai voulu vérifier l’information, je suis donc passé par Google en tapant “google mathématiques”, résultat des milliers de pages parlant de Google (l’entreprise) ou de mathématiques, a priori aucune ne parlait de la valeur mathématique. J’ai continué plus de 10 min comme ça en enchainants les requêtes “valeur numérique un google” “google valeur mathématique” “un google en maths” etc etc. au bout du compte en tapant “terme mathématique un google” j’ai finalement trouvé une page, qui même si elle ne parlait pas du terme mathématique abordait les origines de l’entreprise et expliquait que son nom était issu du terme mathématique “googol” (gogol en français). C’est plus par chance que parce que la requête est bonne que j’ai trouvé un résultat, nul doute que la plupart des gens auraient laissés tombés avant de trouver, alors qu’il ne s’agit que de la simple vérification d’une information qu’on possède déjà.
A 10:41 Le Jeudi 31 juillet 2008
La difficulté d’établir un lien en la société Google et le fameux nombre ne me surprend pas et pour plusieurs raisons.
Tout d’abord, Google est un mot très répandu. Une simple requête sur ce mot renvoie des millions de pages. Pour retrouver le terme mathématique associé, celà revient à chercher une aiguille dans une botte de foin.
D’autre part, ta requête cherchait à établir un lien étymologique entre 2 mots. Je ne crois pas que les moteurs de recherches soient vraiment performants sur cet axe de recherche.
Enfin, je ne crois pas que le moteur de recherche ait réussi un établir un lien phonétique entre les mots “Google” et “Googol” qui se prononcent exactement de la même façon en anglais. Pourtant cet axe aurait peut être affiné ta recherche.
La sémantique est effectivement un caractère prépondérant pour améliorer la qualité de la réponse mais je ne crois pas que ce soit la seule voie. En l’espèce, je ne suis pas persuadé que de plus grandes capacités sémantiques du moteur t’auraient aidé.
A 11:33 Le Vendredi 1 août 2008
Il est dommage à mon sens d’ oublier le rôle des outils comme wikipedia qui auraient fourni a vos deux premières requetes une reponse immediate et qui pourtant ne sont pas classés comme “moteur de recherche officiel “.Si l’on tape “qui est le peintre surrealiste a grande moustache” : la premiere réponse donnée par wikiepdia est S.Dali .Si l’on tape google dans wikipedia –> l’info concernant l’histoire du nom apparait au premier paragraphe .Dans les deux cas, la réponse est trouvée en moins de 10 secondes . Après , le soucis principal des wiki est la validité des infos qu’elles contiennent (mais cela est valable sur n’importe quel autre site ) et c’est un autre débat
A 16:13 Le Vendredi 1 août 2008
Chessyca, en voila une réponse qu’elle est intéressante !
Hé bien figure toi que je n’y avais pas pensé. Wikipédia est pourtant une source d’infos dont je me sert tous les jours. Par contre je ne pense pas lui avoir déjà posé une question. Je l’ai toujours utilisé pour avoir des informations complémentaires sur une information que j’avais déjà mais je n’avais jamais essayé de lui poser une question directe. Sans doute comme tu le dis parce qu’il n’est pas un moteur de recherche au sens classique du terme.
La validité des infos qu’on trouve dessus n’est pas en question. En tout cas pas dans la problématique du sujet, puisque n’importe quel site apparu dans un résultat Google ou Yahoo peut lui aussi contenir des infos erronées.
Ceci dit j’ai fait d’autres tests de questions en langage naturel, Wikipédia est capable d’y répondre si la question est suffisament simple (pour faire un parrallèle disons que les questions simples sont celles auquelles une majorité de personnes seraient capable de répondre sans recherche si vous la leur posiez). Pour les questions plus pointues par contre il propose des résultats beaucoup moins probants, a moins qu’elles contiennent des références uniques.
J’ai tout de même été surpris de l’efficacité de la réponses à certaines questions. Par exemple en tapant “Expérience de psychologie sur l’obeissance”, j’ai immédiatement eu la réponse que je cherchais à savoir l’expérience de Milgram (que je vous conseille d’ailleurs de lire, ça n’a rien à voir avec le sujet mais c’est très intéressant).
Cependant même si c’est une piste à suivre très intéressante, je pense que le système wikipédia restera toujours en marge des moteurs de recherches, même si ces derniers l’intègrent dans leurs résultats.Non seulement il n’est pas possible qu’il donne des réponses multiples de par sa conception (un résultat = une page), mais surtout il se limite aux réponses qu’on pourrait trouver dans une encyclopédie ( ce qu’il est, c’est donc bien normal).
A 10:05 Le Mardi 12 août 2008
En gros, les moteurs de recherchent doivent nous ressembler quoi …
A 17:31 Le Mardi 12 août 2008
Comprendre ce qu’on recherche surtout.