Machine learning en production : un « mythe » s’effondre

0
19

Dans le cadre de la conférence DataOps Rocks orchestré par Saagie Le 23 septembre 2021, Yann Barraud, Global Head of Data chez Carrefour, David Lépicier, Global Head of Data and Analytics chez Pernod-Ricard, et Guillaume De Saint Marc, Senior Director of Engineering, Emerging Technologies and Incubation chez Cisco, ont échangé sur les données meilleures pratiques scientifiques au sein de leur entreprise. Dans ces trois organisations, les modèles de apprentissage automatique est entré en production.

Les managers notent que ce passage d’une phase de recherche à une mise en production nécessite un changement d’organisation.

« Notre conviction chez Carrefour est qu’il faut considérer un projet data comme un produit, quelle que soit sa complexité », insiste Yann Barraud. « Cet enjeu est prioritaire par rapport à la mise en place des processus et outils de déploiement. L’équipe doit savoir construire et déployer un projet intelligemment, pour se concentrer sur un même objectif. Ce n’est qu’à partir de ce moment que nous sélectionnons les solutions nécessaires pour industrialiser tout cela ».

“Notre conviction chez Carrefour est qu’il faut considérer un projet data comme un produit, quelle que soit sa complexité.”

Yann BarraudDirecteur Global Data, Carrefour

Il s’agit de mettre en place une organisation digne de ce nom qui allie les compétences des data scientists à celles des développeurs.

« Chez Carrefour, nous avons des équipes techniques chargées de fournir des données de qualité. les équipes de science des données consomment les éléments déployés par les ingénieurs data », explique Yann Barraud. « Mais avant de leur transmettre les données, une équipe gouvernementale vérifie sa qualité avant de développer les modèles. Alors lui scientifiques des données travailler main dans la main avec les ingénieurs de données pour effectuer l’ingénierie des fonctionnalités. Des modèles d’apprentissage automatique seront mis en œuvre en collaboration avec un DevOpspartie de l’équipe.”

“Si les équipes sont bien constituées, si elles comprennent les enjeux du projet et les limites de chacun, ça marchera”, assure-t-il.

Le data scientist omnipotent cède la place aux équipes

Cependant, l’intention se heurte souvent à la réalité.

“Aujourd’hui, cela ressemble toujours au rêve d’un ingénieur, mais les projets d’IA doivent être mis en œuvre en tant que projets logiciels standard. Sauf que la gestion des versions demande plus d’efforts. Cela ne doit pas seulement être fait pour le code du modèle, mais aussi pour les données et les métadonnées utilisées. Il existe sur le marché des solutions qui commencent à offrir les capacités nécessaires, mais cette profusion de versions complique les choses », avoue Yann Barraud.

De son côté, Guillaume De Saint Marc estime que les capacités low-code/no-code ne suffisent pas encore à rendre les data scientists opérationnels, plus ou moins dans le cadre de « projets simples ». « Dès que vous développez des solutions avancées, vous avez besoin d’équipes IT, DevOps et MLOps qui travaillent bien ensemble. »

Selon David Lépicier, un mythe s’effondre lorsqu’il s’agit de déployer des modèles d’apprentissage automatique en production.

« Nous nous éloignons du mythe selon lequel le data scientist devrait tout faire. On se rend compte que 6 ou 8 data scientists ont besoin d’un Machine Learning Engineer responsable de la qualité du code, garant du bon fonctionnement des modèles », explique-t-il.

En clair, il s’agit de répartir les tâches aux bons membres d’une équipe data, plutôt que de formaliser directement une approche DataOps ou MLOps.

« De même, le data scientist sera la figure de proue capable de présenter clairement les tenants et les aboutissants d’un projet, mais avoir des data analysts capables de faire de même est bénéfique », précise David Lépicier.

Concernant la collecte des données, le responsable des données doit s’assurer de la propreté des informations collectées, selon le responsable. « Dans une entreprise non technologique comme la nôtre, les équipes doivent être capables de comprendre et d’intégrer de nouveaux rôles dans leurs processus. Nous devons créer des alliances avec des entreprises pour collecter et analyser ces données, ne pas faire manipuler les fichiers par 15 personnes avant qu’ils n’arrivent entre les mains de équipes de science des données “, listes.

Recrutez les bons profils, au bon endroit

Yann Barraud a identifié un nouveau rôle dont le titre est apparu vers 2018 : le traducteur de données. Leur rôle n’est autre que de prendre en charge une partie du travail des data scientists en matière de communication avec les entreprises. Selon l’offre d’emploi toujours d’actualité de Carrefour, il est “le pivot entre les équipes métiers et les équipes dirigeantes de data scientists, d’ingénieurs de données, de gouvernance des données et de visualisation des données”.

Il est capable d’effectuer des analyses et des explorations de données de premier ordre et de communiquer facilement les besoins des lignes d’affaires dont il est le représentant auprès des data scientists; et au contraire, retranscrire le travail des data scientists aux métiers. Clairement, Carrefour recherche un analyste de données ou un statisticien de bon niveau avec des capacités de chef de produit. « L’idée est que vous puissiez faire un peu d’idéation et identifier des opportunités de cas d’usage avec les équipes métiers, des cas d’usage dont vous deviendrez propriétaire de produit », précise Yann Barraud.

De manière générale, la nature de ces métiers pousse les entreprises à être inventives dans leur recrutement.

« Les formations en France fonctionnent bien, mais les marchés [de la data science] ils sont extrêmement tendus”, commente Guillaume De Saint Marc. “C’est aussi une opportunité pour notre pays. Chez Cisco, nous avons ouvert des bureaux en France et en Europe car il y avait une pénurie dans la Silicon Valley. En revanche, il ne faut pas chercher à recruter la personne idéale, le profil magique », conseille-t-il. « Il ne faut pas oublier les équipes internes. De nos jours, les sujets data et machine learning intéressent beaucoup de monde. Franchement, la plupart des ingénieurs souhaitent développer leurs compétences dans ce domaine et éprouver de la curiosité, il faut jouer des deux côtés, interne et externe ».

« Il ne faut pas oublier les équipes internes. De nos jours, les sujets liés aux données et à l’apprentissage automatique intéressent beaucoup de gens. »

Guillaume de Saint MarcDirecteur principal de l’ingénierie, des technologies émergentes et de l’incubation, Cisco

Chez Pernod-Ricard, on comptait déjà une trentaine de membres de l’équipe informatique spécialisés dans l’infrastructure et l’ingénierie des données. « Dans l’équipe data science, nous sommes passés de deux à 60 employés, témoigne David Lépicier. « Nous avons estimé les besoins et les bénéfices potentiels de trois cas d’utilisation importants sur nos marchés. Nous avons embauché une trentaine de profils en interne et l’autre moitié en freelance. Il faut s’assurer que les gens s’intéressent à ce type de projet et à la combinaison de compétences techniques et commerciales, ce qui facilite l’adhésion des employés », précise-t-il. Ainsi, les ingénieurs en machine learning expliqueraient aux data scientists l’intérêt d’optimiser leur code, en vue, entre autres, de faire passer les modèles de machine learning en production.

L’équipe Pernod-Ricard est internationale, mais des unités spécifiques sont présentes à Shanghai, Mumbai et New York « pour déployer [les modèles ML] localement, sur votre marché. En revanche, pas de miracle, certains groupes ne s’entendent pas, selon David Lépicier. « Dans certains cas, nous appelons les entraîneurs. Bonne entente, le dialogue prend du temps, mais je pense que c’est mieux que de voir quelqu’un quitter l’entreprise ».

Chez Carrefour, les équipes data science sont réparties par pays et sont en cours de constitution. « Nous n’allons pas chercher à former des équipes internationales, travaillant à domicile. Je pense que nous ne sommes pas assez mûrs pour cela. Nous embauchons localement, en interne et en externe pour des besoins spécifiques », précise Yann Barraud.

Quand FinOps rencontre MLOps

Au-delà du recrutement, la mise en production des modèles de machine learning nécessite une maîtrise accrue des coûts de traitement des données. L’approche FinOps croise les approches MLOps et DataOps.

Cependant, le niveau de maturité diffère entre les entreprises de ce panel. Chez Cisco et Carrefour, il y a des pratiques.

« Nous avons mis en place une approche FinOps au niveau detous nos équipements dans le cloud. Cela permet d’importantes optimisations et économies d’échelle ; sur certains sujets, on parle de centaines de milliers, voire de millions d’euros d’économies par an grâce au FinOps dit Yann Barraud.

Les équipes de data science ont également mis en place des bonnes pratiques chez Carrefour, après une période de sensibilisation et « parce qu’il y a eu des abus ». “Les équipes en plus des systèmes de supervision avec les alertes qui leur permettent de notifier si elles respectent les budgets souhaités au développement, et ne sont pas en train d’exploser la facture à cause de mauvaises pratiques”, ajoute-t-il.

« Si c’est dans votre centre de données privé, vous envahissez peut-être les ressources d’une autre unité commerciale. Si c’est dans le cloud, tout ira bien et vous ne verrez pas nécessairement de limitations. En revanche, vous recevrez la facture, potentiellement salée”, prévient Guillaume De Saint Marc. “Dès l’instant où vous essayez les applications, vous devez pouvoir comprendre les coûts associés. Cela peut être assez compliqué », dit-il.

Cependant, il y a des précautions. « Nous faisons deux choses, explique Guillaume De Saint Marc : nous faisons un exercice pratique ou théorique pour projeter une implémentation à l’échelle de l’application. Dans un second temps, nous surveillons tout ce qui peut perturber le fonctionnement d’une application : montées en charge brutales, pannes, cyberattaques, etc. »

Chez Pernod-Ricard, l’approche FinOps n’est pas encore la priorité. “Aujourd’hui, le coût de consultation et de travail avec les données est tellement énorme que l’utilisation de la plateforme cloud en tant que telle n’est pas forcément ce que nous surveillons en premier”, admet David Lépicier. “Nous envisageons de grosses dépenses, mais ce n’est pas le plus gros problème pour nous en ce moment.”

“Aujourd’hui, le coût de l’interrogation et de l’utilisation des données est si énorme que l’utilisation de la plate-forme cloud en tant que telle n’est pas nécessairement ce que nous surveillons en premier.”

David LépicierResponsable mondial des données et de l’analytique, Pernod Ricard

Apprentissage automatique en production : une histoire de retour sur investissement

Il s’agit surtout de trouver les bons cas d’usage, synonymes de gains financiers ou opérationnels. Encore une fois, ce travail est basé sur une approche itérative. “Par exemple, pour l’optimisation des promotions, nous supposons une amélioration de x % dans une campagne. Cela pourrait impliquer une dépense d’environ n euros, dont on peut tirer un profit y. Une fois les hypothèses les plus convaincantes sélectionnées, il faut les tester. Parfois le ROI est bon, parfois pas », explique David Lépicier.

Pourtant, cette méthodologie très scientifique a fait ses preuves pour évaluer la pertinence d’un modèle promotionnel par rapport à un autre dans une chaîne de magasins comme Carrefour. “Ça a un vrai impact sur le terrain”, assure le dirigeant. De même, les data scientists de Pernod-Ricard ont construit des modèles de recommandation pour optimiser les déplacements des vendeurs de rue dans les bars, restaurants et hôtels. Encore une fois, les commentaires sont positifs.

Chez Carrefour, un modèle d’apprentissage automatique a été conçu pour optimiser la production de pain dans certains magasins français. Le but est d’éviter la surproduction et donc les invendus, tout en veillant à ce qu’il y ait suffisamment de produits sur les écrans. « En France, la baguette est un élément important de la visite en magasin. Un client va généralement faire quelques courses en plus d’acheter sa baguette », contextualise Yann Barraud. « Pouvoir prévoir la demande locale et le déficit nous a permis d’optimiser la production de pain. Ensuite, nous mesurons les résultats des ventes dans certains magasins pour ajuster notre modèle prédictifpuis généraliser son utilisation.

LEAVE A REPLY

Please enter your comment!
Please enter your name here