Nous générons actuellement environ 2,5 quintillions (millions de billions) d'octets de données dans le monde chaque jour. En seulement quatre jours, le nombre total d'octets générés équivaut à peu près à l'ensemble de la population d'insectes sur Terre. À l'extrémité réceptrice d'une grande partie de ces données se trouvent des entreprises de toutes formes et tailles. Leur avenir en tant qu'entreprises dépend de la manière dont elles convertissent les données collectées en informations décisionnelles fiables, appliquées et monétisées avec succès.
"[U]nverrouiller la valeur commerciale de toutes les données est primordial", a écrit David Stodder, directeur de recherche principal de TDWI pour l'intelligence économique, dans un rapport Pulse du troisième trimestre 2021. "Les gens ont besoin de moyens d'explorer, d'analyser, de visualiser et de partager facilement et de manière créative des informations sur les données afin de pouvoir faire face à l'évolution des circonstances et prendre des décisions éclairées."
La capacité d'exploiter, d'analyser et de monétiser l'afflux quotidien de données dans les coffres des entreprises repose sur l'intelligence artificielle, le grand égaliseur du big data. Les modèles d'apprentissage automatique peuvent produire des résultats qui influencent tous les aspects des opérations d'une entreprise, de la finance au développement de produits en passant par les habitudes d'achat des clients. Pourtant, les entreprises sont aux prises avec l'avancement des projets d'apprentissage automatique au-delà du stade pilote, ralentissant ou sabotant ainsi leurs efforts pour déployer des modèles d'IA en temps opportun.
"En raison des maux de tête que créent les déploiements d'IA, les organisations considèrent le temps nécessaire pour mettre un modèle Gold en production comme un domaine d'amélioration opportuniste", a déclaré Enterprise Strategy Group (ESG), une division de TechTarget. "Avec la vitesse à laquelle les données changent dans une entreprise moderne et dynamique, les organisations ont de plus en plus le sentiment qu'il est inacceptable de prendre près d'un mois pour opérationnaliser l'IA."
Dans cette vidéo, Kathleen Walch et Ron Schmelzer de Cognilytica abordent les vents contraires rencontrés par les entreprises dans les projets pilotes de machine learning, qui peuvent tous entraîner des retards coûteux dans le déploiement du modèle. Tout commence par poser les bonnes questions sur la visibilité et l'application de l'entreprise, la qualité et la quantité des données, l'infrastructure et l'exécution, le personnel et l'expertise, et la sélection des fournisseurs et des produits. Les réponses à ces questions détermineront si le projet d'apprentissage automatique est un succès ou non.
Transcription
Kathleen Walch : Bonjour à tous et bienvenue dans ce webinaire, "Comment faire passer votre projet d'apprentissage automatique au-delà du projet pilote". Cela va être un aperçu de la méthodologie pour faire des projets d'IA, d'accord, nous allons parler, vous savez, pourquoi utiliser l'IA du tout et ensuite quelques pièges à éviter. Ceci est présenté par les analystes de Cognilytica Kathleen Walch et Ron Schmelzer.
Alors, un peu sur Cognilytica au cas où vous ne seriez pas familier avec nous : Cognilytica est une société de conseil et d'éducation axée sur l'IA et la technologie cognitive. Nous produisons des études de marché, des conseils et des conseils sur l'intelligence artificielle, l'apprentissage automatique et la technologie cognitive. Nous produisons également le populaire podcast AI Today. Nous le faisons depuis environ quatre ans, alors vous nous avez peut-être entendus là-bas. Nous avons également une série d'infographies, un livre blanc et d'autres contenus populaires sur notre site Web. Nous nous concentrons sur l'adoption de l'IA par les entreprises et le secteur public, et nous contribuons également à la rédaction de Forbes et de TechTarget.
Ron Schmelzer : Oui. J'espère donc que vous avez lu beaucoup de nos articles sur les sujets de l'IA et de l'apprentissage automatique. Et l'objectif ici pour nous maintenant est de vous aider, si vous travaillez avec le projet d'apprentissage automatique, à surmonter certaines des difficultés que vous pourriez rencontrer pour faire de ces projets d'apprentissage automatique une réalité. Alors, passons maintenant à notre prochaine diapositive ici.
Et je pense que l'un des plus gros obstacles pour beaucoup de gens qui essaient de faire avancer leurs projets d'apprentissage automatique est de s'assurer qu'ils résolvent le bon problème. Souvent, vous savez, l'un des problèmes les plus fondamentaux avec l'IA est que les gens essaient d'appliquer l'IA à un problème pour lequel elle n'est vraiment pas très bien adaptée. Et l'une des choses que nous pouvons examiner au fur et à mesure, à quoi l'IA est-elle vraiment, vraiment bien adaptée ? Une chose dont nous parlons dans nos recherches, ce sont ces sept modèles d'IA, car le problème avec l'IA, c'est que c'est un peu un terme général. Et le défi est que lorsque deux personnes différentes parlent d'IA, elles ne parlent peut-être pas de la même chose.
En général, sans entrer dans les détails, nous avons ces modèles. Vous pourriez avoir des systèmes d'IA capables de classer ou d'identifier des systèmes - le modèle de reconnaissance - ou d'utiliser le traitement du langage naturel pour créer des systèmes conversationnels. Tirez-vous parti du Big Data et trouvez-vous à la fois des modèles dans ce Big Data ou des anomalies dans le Big Data, ou vous aidez-vous à faire de meilleures prédictions avec l'analyse prédictive ? Nous pouvons également avoir des systèmes d'apprentissage automatique qui peuvent nous aider à faire des choses que les humains feraient autrement avec des systèmes autonomes. Ou, peut-être trouver la solution optimale à un puzzle ou à un jeu ou quelque chose comme ça, ou un scénario, qui s'appelle des systèmes axés sur les objectifs. Ou, nous pourrions en fait faire en sorte que nos systèmes d'apprentissage automatique IA mâchent d'énormes quantités de données pour aider à créer un profil d'individu. Ce que tous ces éléments ont en commun, c'est que nous utilisons des données pour en tirer des informations. Et, à cause de cela, ce n'est pas comme si nous écrivions des règles et donc nous utilisons des probabilités, nous utilisons des statistiques. Et si nous ne pouvons pas écrire de règle pour un système mais que nous avons besoin que la machine fasse quelque chose, alors c'est un bon signal que l'apprentissage automatique de l'IA pourrait être une bonne solution pour cela. Si c'est probabiliste, ce que sont les systèmes d'apprentissage automatique, alors nous devrions utiliser un modèle d'apprentissage. C'est l'apprentissage automatique.
Walch : C'est vrai. Il est donc important de comprendre quand utiliser l'IA, et il est également important de comprendre à quoi elle ne convient pas. Donc, si vous avez une tâche d'automatisation répétitive et déterministe, n'utilisez pas l'intelligence artificielle et l'apprentissage automatique. Si vous avez des analyses basées sur des formules, alors allez-y et faites-le. Aussi, les systèmes qui nécessitent une précision de 100 %. Parce que c'est probabiliste et non déterministe, vous ne pouvez jamais obtenir une précision de 100 % - et si c'est ce dont vous avez besoin, l'intelligence artificielle et l'apprentissage automatique ne sont pas le bon outil pour cela. Des situations avec très peu de données d'entraînement -- vous savez, la question est toujours de savoir de combien de données d'entraînement ai-je vraiment besoin ? Et nous disons que cela dépend du modèle que vous essayez de faire. Mais en général, si vous n'avez pas beaucoup de données d'entraînement -- vous savez, elles sont très, très minimes -- probablement pas adaptées à l'IA et aux technologies cognitives. En outre, les situations où l'embauche d'une personne peut être plus facile, moins chère et plus rapide. Vous savez, il faut du temps pour construire ces systèmes, vous ne pouvez pas simplement le saisir et commencer à l'utiliser. Donc, s'il s'agit d'un petit projet ou de quelque chose où il est plus facile d'embaucher un humain, cela pourrait être une meilleure solution. Et ne faites pas non plus de l'IA juste pour faire de l'IA parce que c'est un facteur cool ou un mot à la mode, les gens en parlent. Assurez-vous qu'il apporte réellement de la valeur et qu'il est utilisé dans la bonne situation. Donc, comme Ron l'a mentionné plus tôt, si c'est probabiliste, allez-y avec l'IA ; si c'est déterministe, utilisez plutôt une approche de programmation.
Schmelzer : C'est vrai. Alors maintenant, je sais que beaucoup d'entre vous pourraient contester certains de ces points et dire : "Attendez une seconde, n'essayons-nous pas de créer des systèmes d'IA qui peuvent utiliser une petite quantité de données d'entraînement, peut-être pas de données d'entraînement, la vision de qu'est-ce qu'on appelle l'apprentissage zéro coup -- ou même l'utilisation de systèmes basés sur le cloud qui ont un énorme modèle que nous pouvons peut-être recycler ou étendre en utilisant l'apprentissage par transfert, certains de ces trucs de vision cloud ?" La réponse est oui, c'est vrai; bien que certains de ces points commencent en fait à disparaître, ce qui signifie que nous élargissons la portée de l'endroit où l'IA et l'apprentissage automatique peuvent être appliqués à des situations avec des données de formation inférieures, ou des situations où nous avons peut-être un humain effectuant une tâche et peut-être le Le système d'IA maintenant, juste, le coût et la complexité ont considérablement diminué.
La seule raison pour laquelle nous mentionnons cela est que parfois ces problèmes sont un facteur. Et ils deviennent un facteur lorsque vous regardez ce qu'on appelle la décision go/no-go de l'IA, qui est en fait quelque chose qu'Intel et d'autres ont popularisé et qui fait partie d'une méthodologie pour bien faire les projets d'apprentissage automatique de l'IA. Dans ce cas, vous devriez vous poser ces questions - et ce sont les questions qui vous aideront à déterminer si des projets d'apprentissage automatique de l'IA sont même possibles, compte tenu des problèmes que vous essayez de résoudre. Premièrement, avez-vous une définition du problème qui soit même claire ? Savez-vous quel problème vous essayez de résoudre ? Sinon, c'est un peu comme le plus gros no-go, non ? Vous avez des gens dans votre organisation qui sont prêts à changer ce qu'ils font maintenant ? Si la réponse est non, alors il ne sert à rien de construire une preuve de concept et vous ne pouvez même pas faire du pilote une réalité. Et puis, bien sûr, le problème est-ce que cela aura même un impact ? Ce sont des questions de visibilité commerciale.
Ensuite, nous avons ces questions sur les données, qui renvoient à certains des points dont Kathleen parlait plus tôt. Avons-nous même des données qui mesurent ce qui nous importe ? Même s'il s'agit d'une petite quantité, mesure-t-elle même ce que nous voulons ? En avons-nous assez ? Eh bien, vous savez, même si nous voulons faire un apprentissage à zéro coup et peut-être à quelques coups, ce n'est pas possible dans tous les scénarios. Cela pourrait être possible dans des situations où nous avons un grand modèle pré-entraîné, comme la vision par ordinateur, mais cela pourrait ne pas être possible pour l'analyse prédictive, les modèles et les anomalies, où un petit -- vous ne voudrez pas détecter un modèle, quand vous n'ont que cinq ou six exemples de ce modèle. Tout dépend du modèle que vous essayez de résoudre. Enfin, bien sûr, nous avons des problèmes de qualité des données. Vous savez, les déchets entrants sont des déchets sortants. C'est certainement le cas avec l'apprentissage automatique. Donc, nous avons ces problèmes. Ce sont tous des problèmes de données.
Et puis du côté de l'exécution, la question est de savoir si nous pouvons même construire la technologie que nous voulons ? Avons-nous l'infrastructure technologique dont nous avons besoin? Avons-nous la pile de développement d'apprentissage automatique que nous voulons ? Pouvons-nous même, si nous construisons ce modèle, pouvons-nous même le faire dans le délai requis? Un problème est que cela peut prendre une tonne de temps pour s'entraîner, en avons-nous? Qu'en est-il du temps d'exécution du modèle ? Est-ce très lent ? Ce sont des questions que nous devons nous poser.
Et bien sûr, ce dernier point est, pouvons-nous utiliser le modèle là où nous voulons même utiliser le modèle ? Est-il possible d'utiliser le modèle si nous devons l'utiliser, par exemple, sur un périphérique périphérique, ou dans un cloud ou un environnement sur site ? Pouvons-nous même faire cela? Si la réponse à l'une de ces questions est non, cela rend votre projet très difficile ou presque impossible. Si toutes les réponses à ces questions sont oui, vous pouvez les imaginer comme une rangée de feux de circulation : si tous les feux sont au vert, alors notre projet peut avancer. Vous savez, cela ne résout pas tous les problèmes, mais cela nous permet de savoir comment nous pouvons faire avancer notre projet. Et c'est en quelque sorte la clé de ce défi.
Walch : Et c'est ce qui est vraiment important, c'est de s'assurer que la bonne équipe est en place, et que les bons rôles sont et sont également utilisés pour le projet. Donc, nous disons toujours, vous savez, posez la question : "Est-ce que la bonne équipe d'IA est en place ?" Et il y a quelques domaines différents sur lesquels vous pouvez vous concentrer. Donc, le côté commercial, vous savez, voulez-vous avoir un secteur d'activité disponible ? Les analystes commerciaux, les architectes de solutions, les scientifiques des données -- souvent, les scientifiques des données relèvent de ce secteur d'activité. Alors, vous savez, avez-vous les bons rôles et les bonnes compétences en place là-bas ? Ensuite, la science des données elle-même -- vous savez, avez-vous un data scientist dans votre équipe ? Avez-vous un spécialiste de domaine ? Et puis nous avons parlé des problèmes de données et des problèmes de qualité des données. Donc, si nécessaire, avez-vous un étiquetage ou des contributeurs externes pour que vous puissiez obtenir vos données - en particulier dans l'apprentissage supervisé qui nécessite des données bonnes, propres et bien étiquetées. Avez-vous des solutions d'étiquetage, vous savez, en place? Nous parlons également du rôle d'ingénierie des données. Dans ce rôle, et vous savez, avez-vous un ingénieur de données, des ingénieurs système, une équipe de données et également une équipe cloud en place que vous utilisez pour ce projet et cette équipe. Et puis l'opérationnalisation. C'est donc à ce moment que vous souhaitez réellement utiliser le modèle en production. Vous aurez peut-être besoin de développeurs d'applications, d'administrateurs système et cloud. Ce sont donc tous des rôles différents qui sont nécessaires pour faire de votre équipe de projet d'IA un succès. Et vous devez en parler et dire, vous savez, ai-je besoin de chaque rôle ? Ai-je des postes ? Et, vous savez, est-ce que je les ai en général pour pouvoir les appliquer en cas de besoin ?
Schmelzer: Oui, et je pense que le défi avec cela est que vous pouvez être ou non en tant qu'organisation, vous pourriez être une petite entreprise. Vous pourriez être juste une poignée de personnes dans votre organisation, ou vous pourriez être une très grande organisation. Et vous pourriez penser à cela comme "oh mon Dieu, je dois embaucher tous ces gens". Et la réponse est, eh bien, vous n'avez pas nécessairement besoin de les embaucher en tant qu'individus. Ils doivent simplement exister en tant que rôles, et si vous ne les avez pas en tant que rôles dans l'organisation, il est beaucoup plus difficile de dépasser la phase de projet pilote, qui est l'objet de ce webinaire.
Maintenant, oui, il y a des entreprises qui créent des outils qui démocratisent, pour ainsi dire, la science des données pour la mettre entre les mains d'un plus grand nombre de personnes. Il existe des outils qui aident à l'ingénierie des données et en font une tâche beaucoup plus réaliste à faire avec un petit nombre de personnes. Et il se passe aussi des choses du côté de l'opérationnalisation, avec cet espace évolutif de MLOps et de gestion ML, la gouvernance ML. Et, mais je pense que le fait est que vous devez vous assurer que cela est résolu d'une manière ou d'une autre. Il est soit adressé à une personne, soit adressé à un rôle, soit adressé à un outil. Si aucune de ces choses n'est abordée, et que vous avez un tas de gens qui veulent faire bouger les choses mais très peu de gens qui peuvent y arriver, alors vous constaterez que vous vous heurterez à ce barrage routier.
Donc, une partie du chemin pour éviter ces barrages routiers est, bien sûr, comme le grand mantra - qui est "pensez grand, commencez petit et itérez souvent". Mais cela concerne essentiellement chacun de ces défis particuliers du projet d'IA, n'est-ce pas ? Et nous pouvons en quelque sorte les parcourir. Et nous avons en fait parlé de certains d'entre eux tout au long de ce webinaire - dont une partie est que si vous avez des problèmes de qualité des données et que vous avez des problèmes de quantité de données, c'est un obstacle potentiel, et vous devez comprendre, "Est-ce que je besoin de tout résoudre en même temps ? Ou puis-je en résoudre un peu ? » C'est encore une fois, appliquez "pensez grand, commencez petit et itérez souvent" à chacune de ces puces. Et peut-être pouvez-vous commencer avec un problème plus petit qui nécessite des données plus petites qui nécessitent un plus petit nombre d'étapes que vous pouvez utiliser pour résoudre les problèmes de qualité des données.
Walch : C'est vrai. Il y a aussi des problèmes de pipeline d'ingénierie de données et des problèmes d'équipe de science des données. Vous savez, dont nous avons parlé, avez-vous les bons rôles en place ? Et si vous ne le faites pas, alors, vous savez, réfléchissez à la façon dont vous pouvez obtenir cela. Vous savez, y a-t-il une autre solution que je peux trouver ? Puis-je embaucher quelqu'un pour ce rôle? Puis-je former quelqu'un dans ce rôle ? Et si la réponse est non, alors cela peut être un problème, cela peut être un obstacle que vous avez.
Schmelzer : Même chose avec les opérations, nous pouvons penser à ce que nous devons faire avec les opérations. Comment vais-je versionner mon modèle ? Comment vais-je itérer mon modèle ? Ai-je construit un pipeline de recyclage ? Si la réponse est non, puis-je - au lieu de m'y attaquer à nouveau, mordre plus que je ne peux mâcher - puis-je itérer ? Commencez avec un petit modèle ; version qu'un modèle; comprendre comment recycler ce modèle, un petit modèle ; puis passez à deux modèles ou à un modèle plus grand. Vous savez, nous pouvons le faire de cette façon. C'est ainsi que nous abordons le barrage routier. Même chose avec le retour sur investissement -- s'ils disent : "Écoutez, je ne vais pas, vous savez, je ne vais pas investir X millions de dollars dans cette énorme solution, dont je n'ai aucune idée du retour sur investissement. Puis-je commencer Y a-t-il un moyen de commencer avec un projet plus petit avec un retour sur investissement plus petit et de passer à une meilleure solution ? » Même chose avec les motifs, vous savez. Peut-être que j'essaie, vous savez, de faire bouillir l'océan ici et de faire trois, quatre ou cinq modèles d'IA en même temps -- un système de reconnaissance conversationnelle qui effectue des analyses prédictives et la détection de modèles et d'anomalies de manière autonome. Cela pourrait être une chose très, très difficile à faire. Alors, puis-je diviser ce projet en phases plus petites et peut-être simplement aborder la partie conversationnelle, simplement aborder la partie reconnaissance ou autre chose, puis développer cela au fil du temps ?
Je pense que la prochaine chose qui est préoccupante, c'est qu'il y a une différence entre un pilote et une preuve de concept, n'est-ce pas ? Parfois, ils sont utilisés de manière interchangeable, mais ils ne devraient pas. Une preuve de concept est, puis-je simplement expérimenter avec cette technologie ? Puis-je même faire ce que je veux faire ? Vous savez, est-ce, est-ce que, vous savez, ai-je les compétences spécifiques ? Vous savez, j'expérimente ce truc, puis-je construire comme un soi-disant projet de jouet juste pour voir si ça marche ? Alors qu'un pilote est censé être un vrai problème dans un environnement réel avec de vraies données avec de vrais problèmes. Et je pense, je pense que si vous pouvez résoudre ces problèmes -- encore une fois, nous pourrions commencer, nous pourrions voir grand, commencer petit et itérer souvent -- avec un petit pilote qui va vraiment être utile, pas une sorte de chose qui est ne va même pas être utile. Droite?
Walch : C'est vrai. Une autre chose que nous avons vue est, vous savez, n'achetez pas d'huile de serpent de vendeur. Il y a donc beaucoup de battage médiatique, de rotation et d'excitation autour de certaines de ces entreprises, et de certains outils et offres que les entreprises disent pouvoir fournir. Essayez d'éviter ces, ces pièges. Parce que ce sera un barrage routier. Vous savez, si une entreprise dit qu'elle peut faire, vous savez, cinq, 10, 15 choses différentes et qu'elle ne peut vraiment pas, assurez-vous que vous comprenez cela. En outre, vous attaquez-vous d'abord aux problèmes d'IA les plus difficiles ? Vous savez, Ron n'arrête pas de dire - et chez Cognilytica, nous n'arrêtons pas de dire - pensez grand. Alors, pensez à ces problèmes difficiles, mais commencez petit et itérez souvent. Si vous vous attaquez d'abord aux problèmes d'IA les plus difficiles, il ne devrait pas être surprenant que ce soit un projet incroyablement difficile et qu'il échouera très probablement. Si vous commencez petit et que vous continuez à itérer, vous avez de bien meilleures chances de succès et que le projet continue d'avancer. Aussi, résolvez-vous un vrai problème commercial ? Vous savez, cela revient également à la question du retour sur investissement. Êtes-vous en train de résoudre un problème commercial réel ou êtes-vous en train de construire ce petit projet de jouet dont Ron a parlé ? Et puis, apporte-t-il réellement un véritable retour sur investissement mesurable et ayant un impact sur l'entreprise ?
Schmelzer : Oui, et enfin, vous savez, un autre défi auquel vous pourriez être confronté si vous vous heurtez à un barrage routier pilote est de savoir où le projet d'IA est même en cours d'exécution ? Est-il géré au sein de l'organisation informatique, donc traité comme une chose technologique ? Ou est-ce dans le secteur d'activité, qui est traité comme une chose commerciale? Bien sûr, notre point de vue est que les produits d'IA sont transformateurs et qu'ils devraient faire partie de l'entreprise. Ce n'est pas une chose informatique, même s'il y a une composante technologique. Mais tout comme vous ne demandez pas à votre organisation informatique de créer des feuilles de calcul et des graphiques Excel pour votre entreprise - cela fait généralement partie de n'importe quel secteur d'activité, fonctions, ventes, marketing, finances, opérations, peu importe - la même chose avec l'IA. L'IA n'est pas une fonction de la technologie ; c'est une fonction du rôle de l'entreprise, et par conséquent, l'entreprise devrait en être responsable et en être propriétaire.
Ainsi, l'une des choses dont nous parlons beaucoup chez Cognilytica est qu'il existe une méthodologie pour mener à bien les projets d'apprentissage automatique de l'IA. Cela s'appelle CPMAI - gestion de projet cognitif pour l'IA si vous voulez savoir ce que cela signifie - et il est basé sur une méthodologie vieille de plusieurs décennies appelée CRISP DM, qui à l'origine se concentrait uniquement sur l'entrepôt de données et la gestion des données, les projets d'exploration de données , qui est la partie DM de CRISP DM. Et il s'agit essentiellement d'une méthodologie itérative pour commencer par la compréhension métier, puis passer par ces autres phases de compréhension des données : préparation des données, modélisation des données, évaluation du modèle, puis enfin, opérationnalisation du modèle. Et ce que fait CPMAI, c'est qu'il ajoute les exigences spécifiques à l'IA concernant le développement et l'évaluation de modèles. Et, voyez-vous, CRISP DM ne parle pas vraiment d'opérationnalisation du modèle. Donc, c'est une chose complètement nouvelle. Et l'autre chose que CPMAI fait, c'est qu'elle apporte la méthodologie Agile, qui n'était vraiment pas très populaire lorsque CRISP DM est sorti pour la première fois. Et c'est la méthodologie acceptée, à savoir pouvons-nous faire des sprints de deux semaines pour des projets d'IA où nous pouvons réellement accomplir quelque chose de vraiment utile ? Un vrai projet d'apprentissage automatique en un sprint court ? La réponse est bien sûr que vous le pouvez, et c'est à cela que sert la méthodologie CPMAI. Il s'agit d'atteindre le succès en faisant ce qu'Agile a prouvé - c'est-à-dire, encore une fois, voir grand, commencer petit et itérer souvent. Et c'est de cela qu'il s'agit dans cette méthodologie.
Walch : C'est vrai. Alors merci à tous de vous joindre à nous pour cette présentation. Et si vous avez des questions, vous pouvez toujours nous contacter chez Cognilytica. Nos informations sont ci-dessous.