#103 Opérationnalisation de vos projets d'IA
Subscribe to get the latest
on 2022-08-30 00:00:00 +0000
with Darren W Pulsipher, Gretchen Stewart,
Darren Pulsipher, architecte principal des solutions du secteur public chez Intel, et Gretchen Stewart, scientifique en chef des données du secteur public, discutent de l'opérationnalisation des projets d'IA.
Keywords
#artificialintelligence #machinelearning #data #deeplearning #devops #datamanagement #generativeai #people #technology #process
Gretchen est un excellent exemple de quelqu’un qui apprend et s’adapte continuellement. Elle a obtenu sa licence en mathématiques. Elle a également un master en commerce et a terminé un programme à Harvard il y a quelques années, axé sur la science des données, ce qui l’a conduite à son poste de scientifique en chef des données chez Intel dans le secteur public. Elle a travaillé dans le domaine de la technologie pendant plus de 20 ans, en commençant par l’ingénierie logicielle, et a passé 15 ans dans le secteur fédéral.
Elle trouve particulièrement gratifiant de travailler dans le secteur public car cela a un impact dans la vie quotidienne des citoyens. De plus, le gouvernement fédéral détient la plus grande quantité de données sur la planète, ce qui convient parfaitement à quelqu’un qui aime être submergé de données et continuer à apprendre davantage.
Il existe de nombreux termes liés à l’intelligence artificielle. Tout d’abord, il est essentiel de comprendre la différence entre l’intelligence artificielle (IA) et les opérations d’apprentissage automatique (ML ops). Les ML ops sont des techniques faisant partie de l’IA ; ils en sont une sous-catégorie. Les algorithmes d’apprentissage automatique tirent leur force de leur capacité à apprendre à partir des données disponibles. Ainsi, principalement, vous apprenez soit à partir de données supervisées, soit à partir de données non supervisées.
La différence simple entre l’apprentissage supervisé et l’apprentissage non supervisé est l’étiquette des données. Dans l’apprentissage supervisé, les ensembles de données sont étiquetés. Cela signifie que l’apparence des données est déjà cartographiée. Cela facilite grandement la classification et la prédiction. Dans l’apprentissage non supervisé, on cherche à trouver des modèles dans les données ; la machine apprend à créer des relations entre les données en trouvant des modes communs, des similarités ou des différences.
Un exemple d’apprentissage supervisé serait une boutique en ligne recommandant un article qu’un client pourrait vouloir acheter en fonction de son historique d’achats, ou un service de streaming recommandant un film en fonction des habitudes de visionnage de quelqu’un.
De nombreux termes ont désormais l’abréviation “ops” à la fin. Par exemple, les gens disent “DL ops” pour désigner les opérations d’apprentissage profond, une sous-catégorie de l’apprentissage automatique. Pourquoi ce “ops” ? Tout d’abord, ce n’est pas aussi sophistiqué que DevOps. Au lieu de cela, il est influencé par l’idée largement adoptée de l’approche DevOps pour la création et la personnalisation d’applications. Les gens essaient de développer un ensemble de pratiques pour aider à optimiser la fiabilité et l’efficacité de la conception, du développement et de l’exécution de l’apprentissage automatique. Ce serait donc presque comme un marché où vous pouvez créer et exploiter des applications personnalisées, puis les partager avec d’autres.
De nombreux modèles et algorithmes sont déjà optimisés et disponibles dans des outils tels que Converge.io ou C3 AI. Ces méthodologies et technologies peuvent vous aider à rationaliser vos modèles d’apprentissage automatique. La meilleure façon de le faire est avec de nombreux outils qui sont soit open source, soit des logiciels spécifiques créés par les fournisseurs, pour rendre la création, le développement, la conception, l’exécution et le flux beaucoup plus accessibles.
Le développement de l’IA est similaire à ce qu’était le développement de logiciels il y a 30 ans. Beaucoup des étapes sont encore manuelles et seront probablement automatisées prochainement.
Dans les épisodes précédents, Darren et Gretchen ont discuté du fait que de nombreux projets d’IA et de ML ne sont que des expériences scientifiques réalisées une seule fois. Ensuite, le scientifique des données passe à autre chose et cela n’est jamais opérationnalisé. Contrairement à cela, l’opérationnalisation de ML se dirige vers le déploiement du modèle pour fournir une réelle valeur après l’entraînement et l’apprentissage.
Certaines entreprises exploitent explicitement ces outils. Domino Labs, par exemple, crée presque ce marché. Le travail dans le secteur public, disons, sur des sous-marins nucléaires en effectuant une détection d’objets ou une classification par regroupement, pourrait être applicable dans l’armée de l’air ou d’autres auxiliaires afin d’opérationnaliser et de construire des environnements agiles. Vous pourriez exploiter certains algorithmes et les pondérer différemment en fonction des résultats. Vous pourriez l’ajuster en fonction des différences dans les ensembles de données, mais au moins il y a… des points de départ ? Des points communs ? Des outils partagés ? Ses derniers mots ont été coupés ici…
La sécurité est toujours préoccupée par les logiciels et modèles open-source, et l’IA présente des circonstances uniques. Par exemple, comment savoir si le développeur ne l’a pas entraînée à ignorer son propre visage dans un modèle de reconnaissance faciale ? Il y a désormais une attente selon laquelle les personnes doivent documenter les choses, par exemple, d’où provient un ensemble de données.
Il y a aussi la question de l’éthique et de la responsabilité. Le chatbot Tay et les biais trouvés dans les programmes de reconnaissance faciale étaient de bons exemples d’IA dévoyée sans intention malveillante. Pendant longtemps dans les opérations de ML, une seule personne faisait le travail et produisait les résultats. Maintenant, l’idée est que vous avez besoin d’une équipe diversifiée de personnes occupant différents rôles et ayant différentes perspectives sur le monde.
La première conférence sur l’IA et le ML a eu lieu en 1956 au Dartmouth College. La vérité est que de nombreux concepts fondamentaux de l’IA, tels que la régression logistique, la régression linéaire, les algorithmes de regroupement, etc., sont des équations mathématiques qui existent depuis longtemps. Bien sûr, de brillants cadres supplémentaires ont été ajoutés, tels que TensorFlow, à partir desquels construire, mais les bases restent/restaient toujours la fondation. Nous avons ajouté les capacités de calcul, de stockage, la 5G et des fonctionnalités uniques. Une fois que vous avez effectué toute la formation, vous avez les données et les informations à côté de la technologie, au lieu de devoir tout apporter à la technologie. Amener la technologie aux données ouvre de nouveaux problèmes amusants et passionnants que nous pouvons maintenant résoudre.
Mais les conversations concernant la façon dont le modèle a été entraîné, quelles étaient les données originales et la prise en compte de la dérive du modèle doivent toujours se poursuivre. Après un certain temps, il faut revoir l’entraînement ; peut-être faut-il apporter un algorithme différent ou pondérer différemment celui existant pour obtenir des informations plus précises, car il y a plus de données et des données plus diverses. Tout cela est positif car cela augmente votre niveau de précision.
Donc, avec l’orientation vers les opérations ML, vous pouvez le faire en continu. Tout comme le développement de logiciels a évolué vers l’intégration et le déploiement continus, la même chose commencera à se produire dans le domaine de l’IA ou du ML, où les modèles seront mis à jour et deviendront de plus en plus précis.