Les nouveaux territoires du data mining

L’immense accumulation d’informations numériques suscite désormais les convoitises des entreprises. L’enjeu consiste à développer de puissants algorithmes pour les faire parler.

Par Olivier Gschwend

Lorsqu’un client commande un article sur Amazon, l’outil de vente en ligne propose d’autres produits qui pourraient susciter son intérêt. Ces recommandations s’opèrent instantanément, sans même que l’utilisateur n’y prête attention. Pourtant, elles font appel à des algorithmes complexes qui calculent on-line les paramètres communs aux produits pour en recommander d’autres similaires. Cet exemple de data mining n’en est qu’un parmi tant d’autres. Industrie, santé, banque, assurance: de nombreux secteurs perçoivent ces méthodes d’analyse comme le nouvel eldorado pour élargir leurs connaissances ou favoriser leur rendement.

Les scientifiques aussi font constamment appel au data mining pour leurs recherches. Grâce aux statistiques, ils font émerger des informations pertinentes à partir de valeurs a priori sans relation. Mais les outils de prédilection des statisticiens sortent aujourd’hui de leur contexte académique pour envahir la vie quotidienne. «Le data mining entre dans une ère d’analyse concrète et appliquée», explique Hatem Ghorbel, professeur à l’Institut des Systèmes Interactifs et Communiquant à la Haute Ecole Arc Ingénierie – HE-Arc Ingénierie.

A l’origine de cet essor se trouvent le web et la culture des réseaux, qui ont engendré une accumulation de données numériques, le Big Data. Les secteurs privés autant que publics ont compris peu à peu les possibilités offertes par l’analyse de ces données. Ensuite, les algorithmes d’analyses se sont améliorés, en raison de ce besoin d’extraire l’information. «Et lorsque les techniques sont devenues mûres, les entreprises ont commencé à nous approcher», précise Hatem Ghorbel. Son laboratoire est aujourd’hui mandaté par certaines industries pour optimiser le rendement des chaînes de fabrication de vis ou de boulons. Inscrit dans la tendance de l’«internet of things», les machines de production automatisées sont bardées de capteurs. Un ordinateur recense à chaque étape de fabrication des informations comme le temps de production, la quantité de pièces ou la durée de pause des employés. Elles sont ensuite analysées et modélisées pour optimiser la performance de la chaîne. «Cela permet, par exemple, d’éviter des effets d’entonnoir où le temps de production est ralenti par une étape en particulier», précise Hatem Ghorbel.

Industrie 4.0

L’industrie peut ainsi fortement bénéficier du data mining. Dans cette optique, l’Allemagne fait figure de pionnière. Elle a mis en place depuis 2012 le plan Industrie 4.0, qui vise à numériser les chaînes de production industrielle pour les rendre intelligentes. Mais cet engouement pour l’analyse de données s’opère aussi dans d’autres secteurs. «Les banques analysent les données bancaires du client pour évaluer le risque de lui accorder un crédit», avance Diego Kuonen, CEO de Statoo Consulting, société bernoise spécialisée en data mining.

Si l’essor du data mining sur le sol helvétique reste discret, il commence néanmoins à progresser. En Valais, la fondation The Ark, créée par le canton pour valoriser l’innovation, favorise aujourd’hui des projets de e-santé. Le but est d’encourager les échanges entre les entreprises, le monde académique et le milieu médical, et ainsi accélérer la mise en place d’un système de cybersanté. «La e-santé se divise en trois segments, précise Sébastien Mabillard, coordinateur de projets eHealth chez Cimark, bras opérationnel de la fondation. La partie bien-être en amont de la prise en charge médicale, l’étape médicale de soin à proprement parler et finalement, la partie réhabilitation.» Le premier et le troisième segment ne manquent pas d’acteurs: une foule de startups proposent des gadgets «wearable» connectés à une application pour mesurer l’activité physique ou le métabolisme. Mais le secteur médical commence tout juste à entrevoir le potentiel de l’analyse des données en tant qu’outil de prévention et de diagnostic. La startup suisse BioKaizen développe par exemple l’idée d’un passeport biologique contenant l’information métabolique du patient. Il permettrait d’établir sa susceptibilité à développer une maladie et faciliterait un diagnostic précoce. Une aubaine pour les médecins: «La numérisation de la santé favorise la personnalisation des traitements et augmente ainsi leur efficacité», conclut Sébastien Mabillard.

Diego Kuonen connaît bien l’intérêt grandissant pour ces méthodes d’analyses. Consultant en data mining, il conseille les entreprises de tous les secteurs. «Aujourd’hui, je ne m’adresse plus uniquement aux ingénieurs mais aussi aux managers», précise-t-il. En effet, l’enjeu du data mining est de savoir ce que l’on veut faire des données, afin de diriger des décisions d’entreprise. Un travail collectif de réflexion doit donc s’opérer en amont de l’analyse, lors de l’étape cruciale qu’est la récolte des données. Trois éléments doivent être impérativement à considérer: le volume de données, la vitesse à laquelle l’analyse va être opérée et surtout, la nature des données. «Elles sont souvent très variées», rappelle Diego Kuonen. Les données dites structurées se présentent sous forme de valeurs et s’implémentent relativement facilement dans les analyses. Les données non structurées, tel que les textes, sont quant à elles plus délicates à traiter. En effet, extraire des informations pertinentes pour l’analyse parmi les mots clés n’est pas évident.

Dans cette idée, la Bibliothèque nationale suisse a lancé le projet «Des artistes et des livres». Son ambition est de définir des paramètres capables d’identifier les livres d’artiste grâce aux notices bibliographiques de la bibliothèque. «Chaque ouvrage est indexé à l’aide d’une notice contenant par exemple le titre, l’éditeur, l’année ou le prix», explique Nastaran Fatemi, professeure à l’Institut d’Information et de Technologie de la Communication de la HEIG-VD. «Certaines sont en allemand ou en français. D’autres sont incomplètes, ou leurs mots clés ne se situent pas toujours dans le même ordre.» Parmi les 1’600’000 notices, le premier défi réside dans l’extraction automatique et la normalisation de ces champs lexicaux afin de les analyser. Ensuite, les algorithmes exploiteront à terme les champs les plus pertinents pour différencier les livres d’artiste par rapport à n’importe quel autre ouvrage de la bibliothèque.
_______
ENCADRE

Des algorithmes prédisent les tubes de demain

Les maisons de disques misent sur les utilisateurs d’applications et de services web musicaux pour dénicher les futurs hits.

L’application de reconnaissance musicale Shazam compte chaque mois 100 millions d’utilisateurs. Le logiciel suédois Spotify permet de streamer depuis son smartphone plus de 30 millions de titres. Le nombre d’écoutes ou encore
les commentaires d’internautes représentent désormais une mine d’informations sur les tendances musicales.
Les maisons de disques l’ont bien compris: Warner Music Group a d’ores et déjà signé un accord avec Shazam pour mesurer la fréquence à laquelle un titre est «shazamé» et évaluer son potentiel succès.

Ces algorithmes se basent sur le «crowdsourcing» et recensent les écoutes sur une période donnée. Par extrapolation, ils évaluent ensuite si elles vont stagner, ou s’envoler, et favoriser l’émergence du hit. «Ces outils fonctionnent pour peu que l’on possède assez de données», explique Tristan Jehan, chercheur principal dans le laboratoire de musique chez Spotify. Et c’est justement le cas avec le Big Data. Mais les titres «shazamés» ont déjà une forme de popularité sur le marché.

Peut-on alors prédire si un morceau peu connu deviendra un hit? L’équipe de Mybandmarket semble avoir trouvé la réponse. «Nos robots parcourent le web pour extraire des informations musicales», explique Quentin Lechémia, CEO de la société parisienne. Les algorithmes visent les réseaux sociaux et les interactions des utilisateurs comme le nombre de like par page. Ils parcourent les sites de streaming pour y récupérer les commentaires. Des mots clés sont aussi extraits des sites de presse locale. Finalement, les concerts et leurs affluences sont passés au crible. «Ces données nous permettent d’évaluer un morceau ainsi que de mesurer la variabilité de cette cotation», précise Quentin Lechémia. «Si la variabilité augmente fortement, il y a de forte chance que le morceau devienne un hit.» Avec 90% de taux de réussite, les algorithmes de la société semblent efficaces pour prédire si un morceau est voué au succès.

_______

Une version de cet article est parue dans la revue Hémisphères (no 9).

Pour vous abonner à Hémisphères au prix de CHF 45.- (dès 45 euros) pour 6 numéros, rendez-vous sur revuehemispheres.com.

Innovation

Chroniques	cialis online express
Innovation	Rencontres
tadalafil proper dosage	Environnement

Rechercher