Interview #1 : Le métier de data scientist chez Blue DME

Mohamed

Bonjour Mohamed Ben Khemis, vous êtes actuellement data scientist chez Blue DME.

 

Comment en êtes-vous venu à travailler dans la data science ?

 

Mohamed : Je suis mathématicien de formation. J’ai été ingénieur de recherche pendant trois ans dans un laboratoire qui traitait des problématiques de transport et notamment de la prévision du trafic. J’ai travaillé sur l’aspect statistique de la prévision du trafic routier. Voyant le phénomène Big Data se développer, je me suis naturellement tourné vers ce métier porteur. Je voulais également passer du cadre de la recherche qui ne me correspondait plus à un métier davantage opérationnel, que j’ai trouvé au sein de Blue DME.

 

Pourquoi avez-choisi de travailler chez Blue DME ?

 

Mohamed : Quand j’ai rencontré Julien Cabot, CEO chez Blue DME, il m’a parlé du projet Blue DME, une plateforme de négociations de données. Au début, je voyais cela un peu comme « Leboncoin de la Data ». Mais, pour moi, l’idée d’un tiers de confiance au service d’une plateforme d’échange de données semblait véritablement novatrice et disruptive. Et d’un point de vue plus personnel, les challenges auxquels allait être confronté Blue DME et l’environnement technique (Spark, Hadoop, Scala…) dans lequel nous allions évoluer ont fini de me séduire.

 

Pour vous, que signifie être un data scientist ?

 

Mohamed : On définit le data scientist comme une personne meilleure en mathématiques que n’importe quel informaticien et meilleur en informatique que n’importe quel mathématicien. (Rires)
Une autre définition classique-Je récite un peu ma leçon (Rires)– est une personne qui a des compétences en hacking, c’est-à-dire qui sait contourner des problèmes, en statistiques et qui dispose d’une connaissance métier. En réalité, le métier de data scientist est très varié. Certains data scientists peuvent être plus orientés métier comme Nicolas Polaillon, actuellement Chief Data Officer chez Blue DME et qui connaît très bien les problématiques métier. D’autres, comme Nicolas Andretzko et moi, sont davantage attirés par le côté technique, informatique et programmation. J’aime bien être à mi-chemin entre les mathématiques et l’informatique.
Finalement, au quotidien, le métier de data scientist consiste à poser un problème concret, mettre à profit les données disponibles, idéalement nombreuses, et utiliser les outils à notre disposition pour apporter des solutions qui seront génératrices de revenus et d’innovation.

 

Plus précisément, quels sont les travaux que vous mettez en œuvre au quotidien ?

 

Mohamed : De façon plus générale, je travaille sur la conception de l’algorithme de pricing : cela consiste à élaborer un prix transactionnel, à l’intersection de la valeur d’usage de l’acheteur, de la valeur de production et de la valeur de marché, tout en prenant en compte l’amélioration de la performance du modèle induite par la combinaison des jeux de données de l’acheteur et du vendeur.
Nous avons également des missions de consulting en data science. Une des missions a consisté, par exemple, à améliorer le ciblage marketing d’un client via des modèles de machine learning supervisé.
Actuellement, je travaille sur un projet pour un client qui va sûrement bientôt rentrer sur la plateforme Blue DME. On accompagne le client pour mettre au bon format ses données. Concrètement, je fais de la manipulation de tableaux et des pivots sur des grosses bases de données, de plus de 8 millions de lignes. L’équipe travaille en interaction sur un data lab créé par notre CTO, Mathieu Despriee, en environnement Spark distribué.

 

Plus généralement, quels sont les outils du data scientist ?

 

Mohamed : Nous utilisons un panel d’outils selon ce que nous cherchons à produire-Excel est largement utilisé. Mais Python est mon langage de prédilection car il est polyvalent et contient beaucoup de packages sur des domaines très variés comme le natural langage processing, la data visualization, le machine learning et le crawling.
De plus, selon moi, en tant que data scientist, on ne peut pas se passer de R. R est plus spécialisé : il dispose de nombreux algorithmes de machine learning et le package Caret rassemble les différents modèles, tout en implémentant les techniques classiques de machine learning, comme la cross validation, le bootstrap et le tuning des hyper-paramètres.
J’ai également l’occasion de travailler sur des outils Big Data comme Spark, en Scala. En effet, la plateforme Blue DME est développée en Scala. C’est un langage de programmation fonctionnel, orienté objet, adapté au monde de l’entreprise car fonctionnant en Java Virtual Machine – Java est le langage le plus répandu en entreprise et Scala est complètement compatible avec Java.

 

Pour vous, quelle est la différence entre un data scientist et un data analyst ?

 

Mohamed : Le data scientist est dans une approche globale, à l’interface entre des problématiques « business » et des questions techniques. Il doit comprendre le problème métier, le traduire mathématiquement ou statistiquement, fournir la solution technique pour le résoudre en évaluant et traitant les données puis restituer le résultat dans le système d’informations cible, à une audience qui n’est pas nécessairement avertie, qui n’a pas une connaissance précise des outils et des termes techniques.
Mais si le data analyst n’explore en général que les données d’une seule source classique (CRM par exemple), le data scientist explore et examine à un plus haut niveau les données de multiples sources dispersées. Il doit faire parler ces données et en sortir des indicateurs concrets au service des problématiques métier.

 

Selon vous, quelles sont les perspectives de ce métier ?

 

Mohamed : Beaucoup de gens parlent de bulle. A la conférence Data Jobs, l’an dernier, Jérémy Harroch a utilisé le terme de bulle pour désigner le Big Data mais a considéré que le phénomène présentait également beaucoup de perspectives.
Je pense que nous surenchérissons autour du Big Data, comme nous avons fait de la surenchère autour d’Internet et du métier d’informaticien dans les années 2000. Aujourd’hui, nous remarquons qu’il existe des centaines de métiers ayant découlé du terme générique d’informaticien. Je considère que les métiers dans le Big Data vont suivre le même processus. Ils vont se préciser et se spécifier. Il existe déjà des profils spécifiques comme les ingénieurs Big Data qui sont des développeurs ou encore des machine learning scientists ou des data visualisation specialists. Je pense que, dans un futur proche, des équipes de data scientists structurées se créeront pour former des pôles Data Science, au sein des entreprises.
Pour en revenir à la notion de bulle « Big Data », j’espère que le recul que nous avons acquis depuis la bulle Internet nous permettra de nous tempérer et de ne pas provoquer le même phénomène que celui que nous avons connu au cours des années 2000.

 

Quels sont les conseils que vous pourriez apporter aux futurs data scientists ?

 

Mohamed Pour être data scientist, il faut être curieux et avide de connaissances techniques et scientifiques. Il faut chercher à acquérir de nouvelles compétences. En effet, la data science est un métier très dynamique où les outils évoluent sans cesse. Il faut également être curieux dans un sens plus métier, chercher à comprendre les préférences des consommateurs avant de travailler sur les données associées, par exemple. Il s’agit donc de ne pas hésiter à s’auto-former : les MOOCs sont aujourd’hui une opportunité fantastique.
Mon deuxième conseil est de se lancer. (Rires) A partir du moment où vous disposez de certaines compétences techniques, allez-y, foncez ! Commencez par les concours Kaggle.com ou Datascience.net. Participez à des salons comme Data Job ou à des conférences plus techniques. J’ai, par exemple, au tout début de ma carrière, assisté à une conférence où une équipe de data scientists racontait leur participation épique à un de ces concours, présentait leurs astuces, les modèles qu’ils avaient utilisés. Ces feedbacks ont une valeur inestimable pour les data scientists. De plus, les meet-ups sont une source de découverte du métier intéressante car ils permettent de développer son réseau dans la data science. Il ne faut également pas hésiter à utiliser les réseaux sociaux professionnels comme Viadeo pour se connecter avec des experts du secteur et pour intégrer des groupes spécialisés dans la data science.
Contactez-moi sans hésiter si vous avez des questions sur le métier passionnant de data scientist !
@M_BenKhemis

 

Merci beaucoup Mohamed Ben Khemis pour vos conseils avertis. Je vous souhaite une pleine réussite dans votre métier de data scientist et dans le projet de développement de votre plateforme chez Blue DME.
@pauline_reitz