Compte Rendu / FlashCamp – « Data Sciences: WTF ? » (10/04/2018)

Par Alexis Echegut

Derrière le buzzword, un concept / outil / métier, que nous sommes nombreux à ne pas savoir définir… Pour nous aider à appréhender cet univers, Le Bivouac reçoit Bertrand Pelletier, Data Scientist freelance et docteur en Nanosciences. Il vient à l’occasion de ce FlashCamp partager sa vision des choses sur ce thème aux allures « barbares ». 


L’intervenant de ce jour : Bertrand Pelletier (Data Scientist) – Profil LinkedIn 


Synthèse de la présentation

HELP! Qu’est-ce que les data sciences ? Pas de panique… notre but est ici de dépasser les idées reçues sur ce sujet farfelu. Démystifier, vulgariser, sont alors les mots d’ordre de ce FlashCamp. Même si pour Bertrand Pelletier notre spécialiste, rendre accessible les data sciences n’est pas chose aisée, tout simplement car il est impossible d’en maîtriser toutes les facettes, il relève tout de même le défi.

Intervention de Bertrand Pelletier, Data Scientist (48mn)

Des Nanosciences aux data sciences

La passion de Bertrand pour les Data Sciences née de son parcours polyvalent. D’abord Docteur et ingénieur en Nanosciences, il bascule rapidement dans le monde indépendant des porteurs de projets, et ce, autour du monde des jeux vidéos. L’utilisation de data et de ses outils y sont alors omniprésentes. Voyons quels éléments déclencheurs viennent conforter Bertrand dans sa conviction profonde que les data sciences peuvent avoir un rôle déterminant quand à la pertinence d’un projet et l’optimisation des résultats d’une entreprise.

Bertrand se souvient de Python (langage de programmation objet, multi-paradigme et multiplateforme) ou encore d’Alpha go. Il y a environ 3 ans, ce logiciel réussi à battre un humain au jeux de go. Dans un passé pas si lointain c’était encore impossible, le jeux était inaccessible à la machine, puisque laissant une forte place à l’intuition. Les data sciences y seraient-elles pour quelques chose ? Oui. Ce fut le premier gros coup de projecteur sur le monde des datas sciences. Alpha go devient le symbole d’une des premières victoires de la machine sur l’homme.

Définir les data sciences

Pour Bertrand Pelletier, les data sciences sont avant tout un métier. Si l’on demande à Google, les data sciences, alias sciences des données, on comprend que c’est “un mélange disciplinaire entre la data inférence, le développement d’algorithme et la technologie, dont l’objectif est la résolution de problèmes analytiques complexes. Au cœur de ce grand mélange, on retrouve les données, les quantités massives d’informations brutes stockées dans les data warehouses des entreprises. Concrètement, la science des données permet d’utiliser les données de façon créative pour générer une valeur pour les entreprises”.

Traduction schématique des data sciences (source: slides présentation Bertrand Pelletier)

 Les premiers exemples publics d’utilisation des data sciences:

  • 2006 : Nous connaissons tous la société Netflix… En 2006, celle-ci a rendu accessible à la communauté ses jeux de données pour optimiser son algorithme de recommandation. Celui qui trouve le meilleur algorithme gagne le cash price! C’est alors un des premiers exemple d’utilisation des data sciences auprès du grand public. L’expérience est dorénavant souvent répétée par les entreprises, et de nouvelles solutions algorithmiques émergent grâce à cette technique.
  • 2008 : Le terme “data sciences” sort de l’ombre pour la première fois via deux ingénieurs de la société LinkedIn. Ils se proclament officiellement data scientist.
  • 2012 : C’est au tour de Harvard. La prestigieuse école déclare le métier de data scientist comme étant le « métier le plus sexy du 21ème siècle! » Un buzzword est né.

Distinguer data sciences et big data

La confusion est effectivement facile à faire. Aucune définition précise ou universelle ne peut être donnée aux big data. Étant un objet complexe polymorphe, sa définition varie selon les communauté. Nous caractérisons ici les big data de mégadonnées. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler. Aujourd’hui, nous dit Bertrand Pelletier, les data sciences n’ont pas besoin de big data pour créer des applications pratiques au départ d’un projet.

« Il suffit parfois d’une personne, d’un jour, pour commencer le processus data scientifique »

Comprenons ainsi que les data sciences viennent s’incérer de manière logique dans l’élaboration primaire des projets, pour à terme créer de la data. Optimiser la bonne gestion de ses data dés le départ de son entreprise revient à maximiser le bon fonctionnement de création de bases de données solides et vient alimenter le processus classique de création et gestion de données représenté par les big data. En effet, quand la recherche sur les big data se tasse, celle des data sciences est en plein expansion. Nous sommes au croisement de deux trajectoires d’études.

Quels intérêts ont les data sciences dans le monde des startups ?

  • Chez AdWords. Avoir la juste enchère pour apparaître devant les concurrents sans trop payer, voilà l’objectif à atteindre. Pour cela Bertrand est intervenu en remettant à plat la vision produit de la société. Il a alors travaillé en collaboration avec plusieurs corps de métier, tel que des spécialistes web. Ceci fait une fois de plus de l’interdisciplinarité et du facteur humain, deux piliers fondamentaux dans la réussite d’une opération entrepreneuriale. Quand certains pensaient qu’il n’y avait plus rien à faire chez AdWords, Bertrand et les data sciences sont venus apporter une vision nouvelle. Il s’agissait alors de mixer les différentes sources de data (donnée data des ventes Adwords + liste des produits marchands). De la sorte, une nouvelle catégorisation des produits est créée, ce qui a permit d’avoir une vue d’ensemble beaucoup plus lisible, donc, plus exploitable. Adwords peut maintenant piloter les enchères plus efficacement tout en minimisant les risques tout en générant de nouvelles données.
  • Chez TripConnexion, société qui propose des voyages sur mesure (B2B référencement). La stratégie était en premier lieu de trouver un maximum de guides touristiques en faisant du prospecting massif, du sourcing et growth hacking. On veut ici convaincre les clients de rejoindre le site à travers des propositions ciblés. On fait alors du Machine Learning (action star des data sciences). Cela consiste en la mise en place d’algorithmes ayant pour objectif d’obtenir une analyse prédictive à partir de données, dans un but précis.

On notera que rester en bonne santé au niveau data dans son entreprise peut se révéler générateur de bons résultats. Encore faut-il faire confiance à un son data scientist. Pas besoin d’attendre d’avoir des big data pour commencer d’utiliser les data sciences lors du décollage des entreprises. Mais alors comment établir des stratégies data solides et dans la durée? Difficile de répondre quand on sait que tout n’est que du sur mesure auprès des startups. Rendez-vous au prochain FlashCamp sur le sujet…


Pour aller plus loin:

Python – accéder au site de Python
Alpha Go – accéder au site d’Alpha Go
Machine Learning – qu’est-ce que le Machine Learning ?
AdWords – accéder au site de AdWords
Tripconnexion – accéder au site de Tripconnexion


Replay de la vidéo intégrale:

Captation vidéo par Cindy Pappalardo-Roy et Damien Caillard, montage et synthèse par Alexis Echegut