TECHNOPHILE

Web 3.0: un internet vraiment intelligent

Le web du futur veut conférer un sens aux données et les rendre compréhensibles par les logiciels et les machines. Et s’affranchir ainsi des humains. Explications.

Vous voulez connaître la hauteur de la tour Eiffel? Facile, il suffit d’introduire les mots «hauteur, tour, eiffel» dans un moteur de recherche. Mais vous devrez encore cliquer sur les liens proposés et lire les pages affichées jusqu’à ce que vous puissiez — enfin — reconnaître l’information désirée. La Toile contient la réponse, mais c’est l’humain qui l’interprète. «Internet regroupe une formidable masse de données, explique Philippe Cudré-Mauroux, professeur en informatique à l’Université de Fribourg. Mais pour l’instant, ces informations ne sont compréhensibles que par l’homme. C’est notre intelligence qui fait le tri.»

Les ordinateurs peuvent aujourd’hui réaliser des recherches syntaxiques en comparant les mots, mais ne comprennent pas la sémantique, c’est-à-dire le sens. Une recherche lancée avec «ordinateur portable» ne donnera ainsi pas les mêmes résultats qu’avec «laptop», deux expressions qui expriment pourtant la même chose.

Le web sémantique, que certains qualifient déjà de web 3.0, veut changer cela. «Internet est une poubelle, sourit Fabien Gandon, représentant au World Wide Web Consortium et chercheur à l’Institut national de recherche en informatique et en automatique (Inria) à Sophia Antipolis (France). Avec la sémantique, il va devenir une poubelle avec tri sélectif.» Cette avancée ouvre un nouveau champ de possibilités où les données peuvent être utilisées aussi bien par des humains que par des logiciels automatisés.

«Le web sémantique, que je préfère appeler web des données, contient des informations structurées qui peuvent être comprises par des machines, détaille Philippe Cudré-Mauroux. L’objectif est d’automatiser certaines tâches et de transformer toutes les informations disponibles sur internet en données semi-structurées.» La promesse: que les machines puissent interpréter ces informations et aider l’utilisateur. «Idéalement, cette technologie va permettre aux internautes d’utiliser la totalité du web», ajoute Kamel Nebhi, doctorant à l’Université de Genève spécialisé dans ce domaine.

Si l’amélioration des moteurs de recherche est l’une des possibilités offertes par cette technologie, les applications potentielles sont innombrables. «Prenez l’exemple d’un voyage, raconte Philippe Cudré-Mauroux. Vous devez aujourd’hui comparer vous-même les offres des compagnies aériennes en fonction de vos disponibilités. Avec le web des données, votre ordinateur pourra vous faire des propositions de vol et de chambres d’hôtel au meilleur prix et en fonction de votre agenda, en sachant par exemple que vous ne pouvez partir qu’après 18h, à la fin de votre journée de travail.»

Décrire le monde

Actuellement, le web peut être vu comme un ensemble de pages localisées par des adresses virtuelles, les URL (Uniform Resource Locator). Chacune de ces adresses renvoie à une page HTML ou un fichier (vidéo, photo, pdf…). Un ordinateur peut passer d’une URL à l’autre mais pas analyser son contenu, ce qui limite l’automatisation des tâches. «Le web sémantique est la création d’une toile de données dans un langage standardisé que les machines peuvent comprendre, explique Fabien Gandon. Cette toile se tisse par l’utilisation systématique de métadonnées, c’est-à-dire des labels qui se référencent entre eux sans apparaître à l’utilisateur.» Ce sont ces métadonnées qui donnent alors le sens aux informations apparaissant dans une page du web.

Par exemple, le chiffre 99 associé à un objet d’un catalogue sera relié, via une métadonnée, au concept «prix». Lorsqu’un utilisateur cherche quel est le prix de l’objet en question, l’ordinateur trouve la métadonnée relative au prix et répond «99 francs» – de manière automatique. Des annuaires tels que Dublin Core hébergent des standards de métadonnées au format RDF (Resource Description Framework), une référence pour le web sémantique, et favorisent l’uniformisation nécessaire à l’essor de ces technologies. «Lors des Jeux olympiques de Londres, le site de la BBC a utilisé le format RDF, note Philippe Cudré-Mauroux, et les gros moteurs de recherche tels Google ou Yahoo! travaillent dessus.» Le projet collaboratif Freebase, qui rassemble du contenu généré par des usagers, fonctionne avec des données structurées, tout comme les sites dbpedia, data.gov.uk ou encore Hakia, qui indexe Wikipédia.

Philippe Cudré-Mauroux et son équipe ont collaboré avec des physiciens du CERN et de l’EPFL pour mettre au point le projet ScienceWise basé sur ces concepts. «L’impulsion est venue des physiciens Alexey Boyarksy et Oleg Ruchayskiy qui ont constaté l’inefficacité des recherches par mots clés dans leur travail, explique Philippe Cudré-Mauroux. Nous avons développé ScienceWise qui permet, grâce aux métadonnées, d’importer automatiquement des papiers scientifiques, à la manière d’un moteur de recherche, mais aussi d’offrir un ranking pertinent basé sur l’analyse de leur contenu.»

Plusieurs obstacles restent à lever avant que le web sémantique ne se développe à grande échelle. «Certains estiment qu’il s’agit d’une utopie, que la technologie n’est pas prête ou encore que la totalité d’internet ne pourra être décrite en métadonnées, rapporte Kamel Nebhi. Pour ma part, je pense que le web sémantique est déjà en place, même si la façon dont il va se développer n’est pas encore claire.» Le gros du travail est désormais du ressort des entreprises et des gouvernements qui devront mettre leurs informations au format RDF — un travail titanesque. «Un traitement manuel sera trop coûteux, poursuit le chercheur. Il faut automatiser ce processus. Des expériences prometteuses ont été effectuées en ce sens.»

Autre défi: que les technologies restent ouvertes. «Facebook utilise déjà des métadonnées, relève Philippe Cudré-Mauroux. Lorsqu’un utilisateur clique sur le bouton “Like” d’un film, cette information est envoyée à Facebook qui peut ensuite afficher des publicités pour d’autres films ou livres du même type. Mais il s’agit d’un système fermé non compatible avec les autres ressources du web sémantique.» Fabian Gandon relativise: «Il n’est pas nécessaire d’avoir un schéma universel. Celui choisi par Google prendra forcément une importance prépondérante. Mais si un schéma est plus intéressant, les programmeurs vont naturellement le sélectionner.»

«Il faudra que les outils soient conviviaux et accessibles, estime Kamel Nebhi. Le succès d’HTML est dû à sa simplicité et à sa diversité. Le web 2.0 a mis du temps à se développer et doit son essor à des succès marquants tels que Facebook. Pour l’instant, le web sémantique manque encore d’une application phare qui pourrait enclencher le mécanisme. La composante économique sera primordiale.» Pour Fabian Gandon, «celui qui contrôle les métadonnées contrôlera le web. Il existe un véritable enjeu politique à préserver la neutralité d’internet et celle du web sémantique en particulier.»
_______

Une version de cet article est parue dans le magazine Reflex.